ray.data.datasource.PathPartitionFilter.__init__#
- PathPartitionFilter.__init__(path_partition_parser: PathPartitionParser, filter_fn: Callable[[Dict[str, str]], bool])[源代码]#
基于解析器创建一个新的基于路径的分区过滤器。
- 参数:
path_partition_parser – 基于路径的分区解析器。
filter_fn – 用于过滤分区的回调函数。接受一个将分区键映射到值的字典作为输入。未分区的文件用空输入字典表示。返回
True
以读取该分区的文件,或False
以跳过它。分区键和值始终是从文件系统路径读取的字符串。例如,这将移除所有未分区的文件:lambda d: True if d else False
这将为找到的任何未分区文件引发断言错误:lambda d: assert d, "Expected all files to be partitioned!"
而这也仅读取2022年1月分区的文件:lambda d: d["month"] == "January" and d["year"] == "2022"