`langchain_community.document_loaders.pyspark_dataframe`.PySparkDataFrameLoader¶

class langchain_community.document_loaders.pyspark_dataframe.PySparkDataFrameLoader(spark_session: Optional[SparkSession] = None, df: Optional[Any] = None, page_content_column: str = 'text', fraction_of_memory: float = 0.1)[source]¶

加载`PySpark`数据框架。

使用Spark DataFrame对象进行初始化。

参数：: spark_session：SparkSession对象。 df：Spark DataFrame对象。 page_content_column：包含页面内容的列的名称。默认为”text”。 fraction_of_memory：要使用的内存分数。默认为0.1。

Methods

`__init__`([spark_session, df, ...])	使用Spark DataFrame对象进行初始化。
`alazy_load`()	一个用于文档的惰性加载器。
`aload`()	将数据加载到文档对象中。
`get_num_rows`()	获取DataFrame中“可行”行的数量
`lazy_load`()	一个用于加载文档内容的惰性加载器。
`load`()	从数据框加载。
`load_and_split`([text_splitter])	加载文档并分割成块。块作为文档返回。

Parameters

spark_session (Optional[SparkSession]) –
df (Optional[Any]) –
page_content_column (str) –
fraction_of_memory (float) –

__init__(spark_session: Optional[SparkSession] = None, df: Optional[Any] = None, page_content_column: str = 'text', fraction_of_memory: float = 0.1)[source]¶

使用Spark DataFrame对象进行初始化。

参数：: spark_session：SparkSession对象。 df：Spark DataFrame对象。 page_content_column：包含页面内容的列的名称。默认为”text”。 fraction_of_memory：要使用的内存分数。默认为0.1。

Parameters

spark_session (Optional[SparkSession]) –
df (Optional[Any]) –
page_content_column (str) –
fraction_of_memory (float) –

async alazy_load() → AsyncIterator[Document]¶

一个用于文档的惰性加载器。

Return type: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

Return type: List[Document]

get_num_rows() → Tuple[int, int][source]¶

获取DataFrame中“可行”行的数量

Return type: Tuple[int, int]

lazy_load() → Iterator[Document][source]¶

一个用于加载文档内容的惰性加载器。

Return type: Iterator[Document]

load() → List[Document][source]¶

从数据框加载。

Return type: List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) → List[Document]¶

加载文档并分割成块。块作为文档返回。

不要覆盖此方法。应该被视为已弃用！

参数：

text_splitter: 用于分割文档的TextSplitter实例。: 默认为RecursiveCharacterTextSplitter。

返回：

文档列表。

Parameters: text_splitter (Optional[TextSplitter]) –
Return type: List[Document]

Examples using PySparkDataFrameLoader¶

pyspark_dataframe.md

langchain_community.document_loaders.pyspark_dataframe.PySparkDataFrameLoader¶

Examples using PySparkDataFrameLoader¶

`langchain_community.document_loaders.pyspark_dataframe`.PySparkDataFrameLoader¶