ray.data.Dataset.write_bigquery#

Dataset.write_bigquery(project_id: str, dataset: str, max_retry_cnt: int = 10, overwrite_table: bool | None = True, ray_remote_args: Dict[str, Any] = None, concurrency: int | None = None) None[源代码]#

将数据集写入 BigQuery 数据集表。

要控制并行写任务的数量,请在使用此方法之前调用 .repartition()

备注

此操作将触发对此数据集执行的延迟转换。

示例

import ray
import pandas as pd

docs = [{"title": "BigQuery Datasource test"} for key in range(4)]
ds = ray.data.from_pandas(pd.DataFrame(docs))
ds.write_bigquery(
    project_id="my_project_id",
    dataset="my_dataset_table",
    overwrite_table=True
)
参数:
  • project_id – 关联的 Google Cloud 项目名称,该项目的托管数据集将被读取。更多信息,请参见 创建和管理项目 中的详细信息。

  • dataset – 数据集的名称,格式为 dataset_id.table_id 。如果数据集不存在,则会创建它。

  • max_retry_cnt – 由于BigQuery速率限制错误,单个块写入尝试的最大重试次数。这与Ray容错重试无关。默认重试次数为10。

  • overwrite_table – 写入操作是否会覆盖已存在的表。默认行为是覆盖表。overwrite_table=False 将在表存在时追加内容。

  • ray_remote_args – 传递给写任务中 ray.remote 的 Kwargs。

  • concurrency – Ray 任务的最大并发运行数量。设置此参数以控制并发运行的任务数量。这不会改变运行的任务总数。默认情况下,并发性是根据可用资源动态决定的。