dask.bag.read_avro

dask.bag.read_avro

dask.bag.read_avro(urlpath, blocksize=100000000, storage_options=None, compression=None)[源代码]

读取一组 avro 文件

使用此功能处理任意嵌套的 Avro 模式。请参考 fastavro 文档以了解其功能:https://github.com/fastavro/fastavro

参数
urlpath: 字符串或列表

绝对或相对文件路径、URL(可能包括 s3:// 等协议),或指向数据的glob字符串。

blocksize: int 或 None

块的大小(以字节为单位)。如果为 None,则不会进行分块,每个文件将成为一个分区。

storage_options: dict 或 None

传递给后端文件系统

compression: str 或 None

目标的压缩格式,如 ‘gzip’。仅在 blocksize=None 时使用。