pyspark.sql.DataFrame.inputFiles

DataFrame. inputFiles ( ) → List [ str ] [source]

返回一个尽力而为的快照,包含组成此 DataFrame 的文件。 此方法简单地要求每个构成的BaseRelation提供其各自的文件,并取所有结果的并集。根据数据源关系,这可能无法找到所有输入文件。重复项将被移除。

新增于版本 3.1.0。

在版本 3.4.0 中更改: 支持 Spark Connect。

Returns
list

文件路径列表。

示例

>>> import tempfile
>>> with tempfile.TemporaryDirectory() as d:
...     # Write a single-row DataFrame into a JSON file
...     spark.createDataFrame(
...         [{"age": 100, "name": "Hyukjin Kwon"}]
...     ).repartition(1).write.json(d, mode="overwrite")
...
...     # Read the JSON file as a DataFrame.
...     df = spark.read.format("json").load(d)
...
...     # Returns the number of input files.
...     len(df.inputFiles())
1