ray.data.datasource.PathPartitionParser#

class ray.data.datasource.PathPartitionParser(partitioning: Partitioning)[源代码]#

基类:object

基于路径的分区格式的分区解析器。

基于路径的分区格式将所有分区键和值直接嵌入其数据集文件路径中。

目前支持两种路径分区格式 - HIVEDIRECTORY

对于 HIVE 分区,所有位于基础目录下的分区目录将根据 {key1}={value1}/{key2}={value2} 命名约定被发现。键/值对不需要在所有路径中以相同的顺序出现。位于基础目录下且不符合此命名条件的嵌套目录名称将被视为未分区。如果定义了分区过滤器,则将对每个未分区的文件使用空的输入字典调用它。

对于 DIRECTORY 分区,基本目录下的所有目录将被解释为 {value1}/{value2} 形式的分区值。还必须提供一个伴随的分区字段名称的有序列表,其中所有分区值的顺序和长度必须与字段名称的顺序和长度匹配。直接存储在基本目录中的文件将被视为未分区。如果定义了分区过滤器,则将为每个未分区的文件使用空输入字典调用它。例如,如果基本目录是 "foo",那么 "foo.csv""foo/bar.csv" 将被视为未分区的文件,但 "foo/bar/baz.csv" 将与分区 "bar" 关联。如果基本目录未定义,那么 "foo.csv" 将是未分区的,"foo/bar.csv" 将与分区 "foo" 关联,而 "foo/bar/baz.csv" 将与分区 ("foo", "bar") 关联。

开发者API: 此API可能会在Ray的次要版本之间发生变化。

方法

__init__

创建一个基于路径的分区解析器。

of

使用扁平化的参数列表创建一个基于路径的分区解析器。

属性

scheme

返回此解析器的分区。