Skip to main content
Open on GitHub

Spark

Apache Spark 是一个用于大规模数据处理的统一分析引擎。它提供了 Scala、Java、Python 和 R 的高级 API,以及一个优化的引擎,支持用于数据分析的通用计算图。它还支持一系列丰富的高级工具,包括用于 SQL 和数据框的 Spark SQL,用于 pandas 工作负载的 pandas API on Spark,用于机器学习的 MLlib,用于图处理的 GraphX,以及用于流处理的 Structured Streaming

文档加载器

PySpark

它从PySpark DataFrame加载数据。

查看使用示例

from langchain_community.document_loaders import PySparkDataFrameLoader

工具/工具包

Spark SQL 工具包

用于与Spark SQL交互的工具包。

查看一个使用示例

from langchain_community.agent_toolkits import SparkSQLToolkit, create_spark_sql_agent
from langchain_community.utilities.spark_sql import SparkSQL

Spark SQL 独立工具

您可以使用Spark SQL工具包中的单个工具:

  • InfoSparkSQLTool: 用于获取Spark SQL元数据的工具
  • ListSparkSQLTool: 用于获取表名的工具
  • QueryCheckerTool: 该工具使用LLM来检查查询是否正确
  • QuerySparkSQLTool: 用于查询Spark SQL的工具
from langchain_community.tools.spark_sql.tool import InfoSparkSQLTool
from langchain_community.tools.spark_sql.tool import ListSparkSQLTool
from langchain_community.tools.spark_sql.tool import QueryCheckerTool
from langchain_community.tools.spark_sql.tool import QuerySparkSQLTool

这个页面有帮助吗?