Skip to main content
Open on GitHub

Diffbot

Diffbot 是一套基于机器学习的产品,使得网页数据的结构化和集成变得简单。

安装与设置

获取免费的Diffbot API令牌按照这些说明 来验证您的请求。

文档加载器

Diffbot的Extract API是一项服务,用于从网页中提取、结构化并规范化数据。

与传统的网页抓取工具不同,Diffbot Extract不需要任何规则来读取页面上的内容。它使用计算机视觉模型将页面分类为20种可能的类型之一,然后将原始的HTML标记转换为JSON。生成的结构化JSON遵循一致的基于类型的本体论,这使得从多个不同的网络来源提取数据变得容易,且使用相同的模式。

查看使用示例

from langchain_community.document_loaders import DiffbotLoader
API Reference:DiffbotLoader

图表

Diffbot的自然语言处理API允许从非结构化文本数据中提取实体、关系和语义含义。

查看使用示例

from langchain_experimental.graph_transformers.diffbot import DiffbotGraphTransformer

这个页面有帮助吗?