dask.bag.read_avro
dask.bag.read_avro¶
- dask.bag.read_avro(urlpath, blocksize=100000000, storage_options=None, compression=None)[源代码]¶
读取一组 avro 文件
使用此功能处理任意嵌套的 Avro 模式。请参考 fastavro 文档以了解其功能:https://github.com/fastavro/fastavro
- 参数
- urlpath: 字符串或列表
绝对或相对文件路径、URL(可能包括
s3://
等协议),或指向数据的glob字符串。- blocksize: int 或 None
块的大小(以字节为单位)。如果为 None,则不会进行分块,每个文件将成为一个分区。
- storage_options: dict 或 None
传递给后端文件系统
- compression: str 或 None
目标的压缩格式,如 ‘gzip’。仅在 blocksize=None 时使用。