ray.data.datasource.PathPartitionFilter.__init__#

PathPartitionFilter.__init__(path_partition_parser: PathPartitionParser, filter_fn: Callable[[Dict[str, str]], bool])[源代码]#

基于解析器创建一个新的基于路径的分区过滤器。

参数:
  • path_partition_parser – 基于路径的分区解析器。

  • filter_fn – 用于过滤分区的回调函数。接受一个将分区键映射到值的字典作为输入。未分区的文件用空输入字典表示。返回 True 以读取该分区的文件,或 False 以跳过它。分区键和值始终是从文件系统路径读取的字符串。例如,这将移除所有未分区的文件:lambda d: True if d else False 这将为找到的任何未分区文件引发断言错误:lambda d: assert d, "Expected all files to be partitioned!" 而这也仅读取2022年1月分区的文件:lambda d: d["month"] == "January" and d["year"] == "2022"