Skip to main content

Diffbot

Diffbot 是一套基于机器学习的产品,可以轻松地对网络数据进行结构化和集成。

安装和设置

获取免费的 Diffbot API 令牌,并按照这些说明进行身份验证。

文档加载器

Diffbot 的 Extract API 是一个可以从网页中结构化和规范化数据的服务。

与传统的网络抓取工具不同,Diffbot Extract 不需要任何规则来读取页面上的内容。它使用计算机视觉模型将页面分类为 20 种可能的类型之一,然后将原始的 HTML 标记转换为 JSON。生成的结构化 JSON 遵循一致的基于类型的本体论,这使得可以轻松地从具有相同模式的多个不同网络来源提取数据。

查看使用示例

from langchain_community.document_loaders import DiffbotLoader

图表

Diffbot 的 自然语言处理 API 允许从非结构化文本数据中提取实体、关系和语义含义。

查看使用示例

from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer

Was this page helpful?


You can leave detailed feedback on GitHub.