pyspark.sql.DataFrame.inputFiles ¶
-
DataFrame.inputFiles( ) → List [ str ] [source] ¶ -
返回一个尽力而为的快照,包含组成此
DataFrame的文件。 此方法简单地要求每个构成的BaseRelation提供其各自的文件,并取所有结果的并集。根据数据源关系,这可能无法找到所有输入文件。重复项将被移除。新增于版本 3.1.0。
在版本 3.4.0 中更改: 支持 Spark Connect。
- Returns
-
- list
-
文件路径列表。
示例
>>> import tempfile >>> with tempfile.TemporaryDirectory() as d: ... # Write a single-row DataFrame into a JSON file ... spark.createDataFrame( ... [{"age": 100, "name": "Hyukjin Kwon"}] ... ).repartition(1).write.json(d, mode="overwrite") ... ... # Read the JSON file as a DataFrame. ... df = spark.read.format("json").load(d) ... ... # Returns the number of input files. ... len(df.inputFiles()) 1