Dask DataFrame API(遗留版本)
内容
Dask DataFrame API(遗留版本)¶
数据框¶
|
并行 Pandas DataFrame |
返回一个包含每个元素绝对数值的 Series/DataFrame。 |
|
|
获取数据框和其他对象的逐元素相加结果(二元运算符 add)。 |
|
使用指定的连接方法将两个对象沿其轴对齐。 |
|
返回是否所有元素都为 True,可能是在某个轴上。 |
|
返回是否任何元素为 True,可能在某个轴上。 |
|
pandas.DataFrame.apply 的并行版本 |
|
对 Dataframe 的每个元素应用一个函数。 |
|
将新列分配给 DataFrame。 |
|
将 pandas 对象转换为指定的数据类型 |
|
使用下一个有效观测值来填充NA/NaN值。 |
|
将 DataFrame 的列转换为类别数据类型。 |
|
计算这个 dask 集合 |
|
复制数据框 |
|
计算列之间的成对相关性,排除NA/null值。 |
|
计算每列或每行的非NA单元格数量。 |
|
计算列之间的成对协方差,排除NA/空值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计数据。 |
|
元素的第一次离散差分。 |
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 truediv)。 |
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 truediv)。 |
|
从行或列中删除指定的标签。 |
|
返回删除了重复行的DataFrame。 |
|
移除缺失值。 |
返回数据类型 |
|
|
获取数据框与其他的元素逐个相等的结果(二元运算符 eq)。 |
|
评估一个描述对DataFrame列进行操作的字符串。 |
|
将类似列表的每个元素转换为一行,复制索引值。 |
|
通过将最后一个有效观测值传播到下一个有效值来填充 NA/NaN 值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
根据日期偏移选择时间序列数据的初始时间段。 |
|
获取数据框和其他对象的整数除法,逐元素进行(二元运算符 floordiv)。 |
|
获取数据框和其他对象的元素级大于或等于结果(二进制运算符 ge)。 |
获取表示第 nth 分区的 dask DataFrame/Series。 |
|
|
使用映射器或按列的Series对DataFrame进行分组。 |
|
获取数据框和另一个数据框的元素级大于比较结果(二元运算符 gt)。 |
|
数据集的前 n 行 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
返回请求轴上最小值的首次出现的索引。 |
纯基于位置的整数索引,用于按位置选择。 |
|
返回 dask 索引实例 |
|
|
Dask DataFrame 的简要概述。 |
|
DataFrame 中的每个元素是否包含在值中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
遍历 (列名, 系列) 对。 |
|
遍历 DataFrame 行作为 (索引, 系列) 对。 |
|
|
将 DataFrame 行迭代为命名元组。 |
|
连接另一个DataFrame的列。 |
分区是否已知 |
|
|
根据日期偏移选择时间序列数据的最后时间段。 |
|
获取数据框和其他对象的元素级小于或等于(二进制运算符 le)。 |
纯标签位置索引器,用于按标签选择。 |
|
|
获取数据框和其他对象的元素级小于比较(二元运算符 lt)。 |
|
在每个 DataFrame 分区上应用 Python 函数。 |
|
替换条件为 True 的值。 |
|
返回请求轴上的值的最大值。 |
|
返回请求轴上值的平均值。 |
|
返回请求轴上值的中位数。 |
|
返回请求轴上值的近似中位数。 |
|
将 DataFrame 从宽格式透视为长格式,可以选择保留标识变量集。 |
|
返回每个列的内存使用量,单位为字节。 |
返回每个分区的内存使用情况 |
|
|
合并 DataFrame 与另一个 DataFrame |
|
返回请求轴上值的最小值。 |
|
获取数据框和其他对象的模数,逐元素操作(二元运算符 mod)。 |
|
获取所选轴上每个元素的模式。 |
|
获取数据框和其他对象的逐元素乘积(二元运算符 mul)。 |
返回维度 |
|
|
获取数据框和另一个数据框的元素不等式(二元运算符 ne)。 |
|
返回按 columns 降序排列的前 n 行。 |
返回分区数量 |
|
|
返回按 columns 升序排列的前 n 行。 |
按分区切片数据框 |
|
|
将此 dask 集合持久化到内存中 |
|
创建一个电子表格样式的数据透视表作为DataFrame。 |
|
返回项目并从框架中移除。 |
|
获取数据框和其他对象的指数幂,逐元素操作(二元运算符 pow)。 |
|
返回请求轴上值的乘积。 |
|
DataFrame 的近似行方向和精确列方向的分位数 |
|
使用复杂表达式过滤数据框 |
|
获取数据框与其他对象的逐元素相加结果(二元运算符 radd)。 |
|
伪随机地将数据框按行分割成不同的部分 |
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 rtruediv)。 |
|
通用行级归约。 |
|
重命名列或索引标签。 |
|
沿新分区重新分区数据框 |
|
将 to_replace 中的值替换为 value。 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
获取数据框和其他对象的整数除法,逐元素进行(二元运算符 rfloordiv)。 |
|
获取数据框和其他对象的模数,逐元素进行(二元运算符 rmod)。 |
|
获取数据框和其他对象的逐元素乘积(二元运算符 rmul)。 |
|
将 DataFrame 四舍五入到可变的小数位数。 |
|
获取数据框和其他元素的指数幂(二元运算符 rpow)。 |
|
获取数据框与其他对象的元素减法(二元运算符 rsub)。 |
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 rtruediv)。 |
|
随机样本项 |
|
根据列的数据类型返回DataFrame列的子集。 |
|
返回请求轴上的无偏标准误差。 |
|
使用现有列设置 DataFrame 索引(行标签)。 |
返回一个表示 DataFrame 维度的元组。 |
|
|
将 DataFrame 重新排列为新的分区 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
按单列对数据集进行排序。 |
|
将一维轴对象压缩为标量。 |
|
返回请求轴上的样本标准差。 |
|
获取数据框与其他对象的元素级减法(二元运算符 sub)。 |
|
返回请求轴上值的总和。 |
|
数据集的最后 n 行 |
|
切换到新的 DataFrame 后端 |
|
从 Dask DataFrame 创建 Dask Bag |
|
将 Dask DataFrame 存储为 CSV 文件 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
|
将 Dask DataFrame 存储到分层数据格式 (HDF) 文件 |
|
将 DataFrame 渲染为 HTML 表格。 |
|
更多信息请参见 dd.to_json 的文档字符串 |
|
将 Dask.dataframe 存储到 Parquet 文件 |
|
从 Dask Dataframe 创建 Dask Array |
|
将 DataFrame 渲染为控制台友好的表格输出。 |
|
有关更多信息,请参阅 dd.to_sql 的文档字符串 |
|
将时间戳转换为 DatetimeIndex,位于周期的 开始。 |
|
获取数据框和其他对象的浮点数除法,逐元素进行(二元运算符 truediv)。 |
返回此数据框值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
使用 graphviz 渲染此对象任务图的计算。 |
|
替换条件为 False 的值。 |
系列¶
|
并行 Pandas 系列 |
|
返回序列和其他元素的加法,逐元素进行(二元运算符 add)。 |
|
使用指定的连接方法将两个对象沿其轴对齐。 |
|
返回是否所有元素都为 True,可能是在某个轴上。 |
|
返回是否任何元素为 True,可能在某个轴上。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象转换为指定的数据类型 |
|
计算滞后N的自相关。 |
|
返回布尔序列,等价于 left <= 序列 <= right。 |
|
使用下一个有效观测值来填充NA/NaN值。 |
忘记部门信息 |
|
|
在输入阈值处修剪值。 |
|
计算这个 dask 集合 |
|
复制数据框 |
|
计算与 other Series 的相关性,排除缺失值。 |
|
返回Series中非NA/null观测值的数量。 |
|
计算与 Series 的协方差,排除缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计数据。 |
|
元素的第一次离散差分。 |
|
返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。 |
|
返回删除了重复行的DataFrame。 |
返回一个移除了缺失值的新序列。 |
|
返回数据类型 |
|
|
返回序列与其他元素逐项相等的比较结果(二元运算符 eq)。 |
将类似列表的每个元素转换为一行。 |
|
|
通过将最后一个有效观测值传播到下一个有效值来填充 NA/NaN 值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
根据日期偏移选择时间序列数据的初始时间段。 |
|
返回序列和另一个序列的整数除法,逐元素进行(二元运算符 floordiv)。 |
|
返回序列和其他元素的“大于等于”比较结果,逐元素进行(二元运算符 ge)。 |
获取表示第 nth 分区的 dask DataFrame/Series。 |
|
|
使用映射器或通过一系列列来分组系列。 |
|
返回序列和其他元素逐项比较大于的结果(二元运算符 gt)。 |
|
数据集的前 n 行 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
返回请求轴上最小值的首次出现的索引。 |
|
Series 中的元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
分区是否已知 |
|
|
根据日期偏移选择时间序列数据的最后时间段。 |
|
返回序列和其他元素的“小于等于”比较结果,逐元素进行(二元运算符 le)。 |
纯标签位置索引器,用于按标签选择。 |
|
|
返回序列和另一个序列的逐元素小于比较结果(二元运算符 lt)。 |
|
根据输入的映射或函数映射 Series 的值。 |
|
对每个分区应用一个函数,与相邻分区共享行。 |
|
在每个 DataFrame 分区上应用 Python 函数。 |
|
替换条件为 True 的值。 |
|
返回请求轴上的值的最大值。 |
|
返回请求轴上值的平均值。 |
|
返回请求轴上值的中位数。 |
|
返回请求轴上值的近似中位数。 |
|
返回 Series 的内存使用情况。 |
|
返回每个分区的内存使用情况 |
|
返回请求轴上值的最小值。 |
|
返回序列和其他的模数,逐元素进行(二元运算符 mod)。 |
|
返回序列与其他对象的逐元素乘法(二元运算符 mul)。 |
字节数 |
|
返回维度 |
|
|
返回序列与其他的元素不等价结果,逐元素操作(二元运算符 ne)。 |
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
唯一行的近似数量。 |
|
将此 dask 集合持久化到内存中 |
|
应用期望 Series 或 DataFrame 的可链式函数。 |
|
返回序列和其他元素的指数幂(二元运算符 pow)。 |
|
返回请求轴上值的乘积。 |
|
Series 的近似分位数 |
|
返回序列和其他元素的加法,逐元素进行(二元运算符 radd)。 |
|
伪随机地将数据框按行分割成不同的部分 |
|
返回序列和其他的浮点数除法,逐元素进行(二元运算符 rtruediv)。 |
|
通用行级归约。 |
|
沿新分区重新分区数据框 |
|
将 to_replace 中的值替换为 value。 |
|
修改系列索引标签或名称 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
提供滚动变换功能。 |
|
将 Series 中的每个值四舍五入到给定的位数。 |
|
随机样本项 |
|
返回请求轴上的无偏标准误差。 |
返回一个表示 Series 维度的元组。 |
|
|
通过可选的时间 freq 将索引按所需周期数进行移位。 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
返回请求轴上的样本标准差。 |
|
返回序列和其他元素的减法结果,逐元素进行(二元运算符 sub)。 |
|
返回请求轴上值的总和。 |
|
切换到新的 DataFrame 后端 |
|
从 Series 创建一个 Dask Bag |
|
将 Dask DataFrame 存储为 CSV 文件 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
|
将 Series 转换为 DataFrame。 |
|
将 Dask DataFrame 存储到分层数据格式 (HDF) 文件 |
|
渲染 Series 的字符串表示。 |
|
将时间戳转换为时间段的 开始 的 DatetimeIndex。 |
|
返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。 |
|
返回对象中的唯一值序列。 |
|
返回一个包含唯一值计数的系列。 |
返回此数据框值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
使用 graphviz 渲染此对象任务图的计算。 |
|
替换条件为 False 的值。 |
索引¶
|
|
|
返回序列和其他元素的加法,逐元素进行(二元运算符 add)。 |
|
使用指定的连接方法将两个对象沿其轴对齐。 |
|
返回是否所有元素都为 True,可能是在某个轴上。 |
|
返回是否任何元素为 True,可能在某个轴上。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象转换为指定的数据类型 |
|
计算滞后N的自相关。 |
|
返回布尔序列,等价于 left <= 序列 <= right。 |
|
使用下一个有效观测值来填充NA/NaN值。 |
忘记部门信息 |
|
|
在输入阈值处修剪值。 |
|
计算这个 dask 集合 |
|
复制数据框 |
|
计算与 other Series 的相关性,排除缺失值。 |
|
返回Series中非NA/null观测值的数量。 |
|
计算与 Series 的协方差,排除缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计数据。 |
|
元素的第一次离散差分。 |
|
返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。 |
|
返回删除了重复值的索引。 |
返回一个移除了缺失值的新序列。 |
|
返回数据类型 |
|
|
返回序列与其他元素逐项相等的比较结果(二元运算符 eq)。 |
将类似列表的每个元素转换为一行。 |
|
|
通过将最后一个有效观测值传播到下一个有效值来填充 NA/NaN 值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
根据日期偏移选择时间序列数据的初始时间段。 |
|
返回序列和另一个序列的整数除法,逐元素进行(二元运算符 floordiv)。 |
|
返回序列和其他元素的“大于等于”比较结果,逐元素进行(二元运算符 ge)。 |
获取表示第 nth 分区的 dask DataFrame/Series。 |
|
|
使用映射器或通过一系列列来分组系列。 |
|
返回序列和其他元素逐项比较大于的结果(二元运算符 gt)。 |
|
索引的前 n 项。 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
返回请求轴上最小值的首次出现的索引。 |
如果值相等或递减,则返回布尔值。 |
|
如果值相等或递增,则返回布尔值。 |
|
|
Series 中的元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
分区是否已知 |
|
|
根据日期偏移选择时间序列数据的最后时间段。 |
|
返回序列和其他元素的“小于等于”比较结果,逐元素进行(二元运算符 le)。 |
纯标签位置索引器,用于按标签选择。 |
|
|
返回序列和另一个序列的逐元素小于比较结果(二元运算符 lt)。 |
|
使用输入映射或函数映射值。 |
|
对每个分区应用一个函数,与相邻分区共享行。 |
|
在每个 DataFrame 分区上应用 Python 函数。 |
|
替换条件为 True 的值。 |
|
返回索引的最大值。 |
|
返回请求轴上值的平均值。 |
|
返回请求轴上值的中位数。 |
|
返回请求轴上值的近似中位数。 |
|
值的内存使用情况。 |
|
返回每个分区的内存使用情况 |
|
返回索引的最小值。 |
|
返回序列和其他的模数,逐元素进行(二元运算符 mod)。 |
|
返回序列与其他对象的逐元素乘法(二元运算符 mul)。 |
字节数 |
|
返回维度 |
|
|
返回序列与其他的元素不等价结果,逐元素操作(二元运算符 ne)。 |
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
唯一行的近似数量。 |
|
将此 dask 集合持久化到内存中 |
|
应用期望 Series 或 DataFrame 的可链式函数。 |
|
返回序列和其他元素的指数幂(二元运算符 pow)。 |
|
返回请求轴上值的乘积。 |
|
Series 的近似分位数 |
|
返回序列和其他元素的加法,逐元素进行(二元运算符 radd)。 |
|
伪随机地将数据框按行分割成不同的部分 |
|
返回序列和其他的浮点数除法,逐元素进行(二元运算符 rtruediv)。 |
|
通用行级归约。 |
|
修改系列索引标签或名称 |
|
沿新分区重新分区数据框 |
|
将 to_replace 中的值替换为 value。 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
提供滚动变换功能。 |
|
将 Series 中的每个值四舍五入到给定的位数。 |
|
随机样本项 |
|
返回请求轴上的无偏标准误差。 |
返回一个表示 Series 维度的元组。 |
|
|
按所需的时间频率增量数移动索引。 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
返回请求轴上的样本标准差。 |
|
返回序列和其他元素的减法结果,逐元素进行(二元运算符 sub)。 |
|
返回请求轴上值的总和。 |
|
切换到新的 DataFrame 后端 |
|
从 Series 创建一个 Dask Bag |
|
将 Dask DataFrame 存储为 CSV 文件 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
|
创建一个包含索引列的DataFrame。 |
|
将 Dask DataFrame 存储到分层数据格式 (HDF) 文件 |
创建一个索引和值都等于索引键的系列。 |
|
|
渲染 Series 的字符串表示。 |
|
将时间戳转换为时间段的 开始 的 DatetimeIndex。 |
|
返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。 |
|
返回对象中的唯一值序列。 |
|
返回一个包含唯一值计数的系列。 |
返回此数据框值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
使用 graphviz 渲染此对象任务图的计算。 |
|
替换条件为 False 的值。 |
|
创建一个包含索引列的DataFrame。 |
访问器¶
与 pandas 类似,Dask 在各种访问器下提供了特定于数据类型的方法。这些是 Series
中的独立命名空间,仅适用于特定的数据类型。
Datetime 访问器¶
方法
|
对数据执行 ceil 操作到指定的 freq。 |
|
对数据执行向下取整操作到指定的 freq。 |
根据 ISO 8601 标准计算年、周和日。 |
|
|
将时间转换为午夜。 |
|
对数据执行四舍五入操作到指定的 freq。 |
|
使用指定的 date_format 转换为索引。 |
属性
返回包含 Python |
|
|
|
一周中的某一天,其中星期一=0,星期日=6。 |
|
一年中的第几天。 |
|
该月份的天数。 |
|
datetime 的小时数 |
|
datetime 的微秒部分。 |
|
datetime 的分钟数 |
|
月份表示为 一月=1, 十二月=12。 |
|
datetime 的纳秒部分。 |
|
日期的季度。 |
|
datetime 的秒数。 |
|
返回 |
|
返回包含时区的 |
|
返回时区。 |
|
一年中的周序数。 |
|
一周中的某一天,其中星期一=0,星期日=6。 |
|
一年中的周序数。 |
|
datetime 的年份 |
字符串访问器¶
方法
将 Series/Index 中的字符串转换为大写。 |
|
将 Series/Index 中的字符串转换为大小写折叠。 |
|
|
在 Series/Index 中使用给定的分隔符连接字符串。 |
|
在 Series/Index 中的字符串的左右两侧填充。 |
|
测试模式或正则表达式是否包含在 Series 或 Index 的字符串中。 |
|
计算 Series/Index 中每个字符串中模式的出现次数。 |
|
使用指定的编码解码Series/Index中的字符串。 |
|
使用指定的编码对 Series/Index 中的字符串进行编码。 |
|
测试每个字符串元素的末尾是否匹配某个模式。 |
|
在正则表达式 pat 中提取捕获组作为 DataFrame 中的列。 |
|
在 DataFrame 中提取正则表达式 pat 中的捕获组作为列。 |
|
返回 Series/Index 中每个字符串中的最低索引。 |
|
在 Series/Index 中查找所有模式或正则表达式的出现。 |
|
确定每个字符串是否完全匹配正则表达式。 |
从指定位置或指定键的每个组件中提取元素。 |
|
|
返回 Series/Index 中每个字符串中的最低索引。 |
检查每个字符串中的所有字符是否都是字母数字。 |
|
检查每个字符串中的所有字符是否均为字母。 |
|
检查每个字符串中的所有字符是否为十进制。 |
|
检查每个字符串中的所有字符是否都是数字。 |
|
检查每个字符串中的所有字符是否均为小写。 |
|
检查每个字符串中的所有字符是否都是数字。 |
|
检查每个字符串中的所有字符是否均为空白字符。 |
|
检查每个字符串中的所有字符是否为标题大小写。 |
|
检查每个字符串中的所有字符是否均为大写。 |
|
|
使用传递的分隔符连接作为 Series/Index 元素的列表。 |
计算 Series/Index 中每个元素的长度。 |
|
|
在 Series/Index 中对字符串的右侧进行填充。 |
将 Series/Index 中的字符串转换为小写。 |
|
|
移除前导字符。 |
|
确定每个字符串是否以正则表达式的匹配项开头。 |
|
返回 Series/Index 中字符串的 Unicode 规范化形式。 |
|
将 Series/Index 中的字符串填充到指定宽度。 |
|
在 sep 的第一次出现处拆分字符串。 |
|
在 Series 或 Index 中重复每个字符串。 |
|
替换 Series/Index 中每个出现的模式/正则表达式。 |
|
返回 Series/Index 中每个字符串中的最高索引。 |
|
返回Series/Index中每个字符串中的最高索引。 |
|
在 Series/Index 中的字符串左侧填充。 |
|
在 sep 的最后一次出现处拆分字符串。 |
|
根据给定的分隔符/定界符拆分字符串。 |
|
移除尾随字符。 |
|
从 Series 或 Index 中的每个元素中切片子字符串。 |
|
根据给定的分隔符/定界符拆分字符串。 |
|
测试每个字符串元素的开头是否匹配某个模式。 |
|
移除前导和尾随字符。 |
将 Series/Index 中的字符串转换为交换大小写。 |
|
将 Series/Index 中的字符串转换为首字母大写。 |
|
|
通过给定的映射表映射字符串中的所有字符。 |
将 Series/Index 中的字符串转换为大写。 |
|
|
在指定的行宽处对 Series/Index 中的字符串进行换行。 |
|
在 Series/Index 中的字符串前添加 '0' 字符进行填充。 |
分类访问器¶
方法
|
添加新类别。 |
|
确保本系列中的类别是已知的。 |
|
将类别设置为有序。 |
确保本系列中的类别是未知的 |
|
|
将分类设置为无序。 |
|
移除指定的类别。 |
移除未使用的类别 |
|
|
重命名类别。 |
|
按照 new_categories 中的指定重新排序类别。 |
|
将类别设置为指定的新类别。 |
属性
这个分类的类别。 |
|
这个类别的代码。 |
|
类别是否完全已知 |
|
类别是否具有有序关系 |
分组操作¶
DataFrame 分组¶
|
使用一个或多个指定的操作进行聚合 |
|
pandas GroupBy.apply 的并行版本 |
|
向后填充值。 |
|
计算组的数量,排除缺失值。 |
|
每个组中的每一项从0到该组长度减1进行编号。 |
|
每个组的累积乘积。 |
|
每个组的累计和。 |
|
使用指定方法填充 NA/NaN 值。 |
|
向前填充值。 |
从具有提供名称的组构造 DataFrame。 |
|
|
计算组值的最大值。 |
|
计算各组的均值,排除缺失值。 |
|
计算组值的最小值。 |
|
计算组大小。 |
|
计算组的样本标准差,排除缺失值。 |
|
计算组值的总和。 |
|
计算各组的方差,排除缺失值。 |
|
计算列之间的成对协方差,排除NA/空值。 |
|
计算列之间的成对相关性,排除NA/null值。 |
|
计算每个组内每一列的第一个条目。 |
|
计算每个组内每一列的最后一个条目。 |
|
返回请求轴上最小值的首次出现的索引。 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
提供滚动变换功能。 |
|
pandas GroupBy.transform 的并行版本 |
Series 分组¶
|
使用一个或多个指定的操作进行聚合 |
|
pandas GroupBy.apply 的并行版本 |
|
向后填充值。 |
|
计算组的数量,排除缺失值。 |
|
每个组中的每一项从0到该组长度减1进行编号。 |
|
每个组的累积乘积。 |
|
每个组的累计和。 |
|
使用指定方法填充 NA/NaN 值。 |
|
向前填充值。 |
从具有提供名称的组构造 DataFrame。 |
|
|
计算组值的最大值。 |
|
计算各组的均值,排除缺失值。 |
|
计算组值的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算组大小。 |
|
计算组的样本标准差,排除缺失值。 |
|
计算组值的总和。 |
|
计算各组的方差,排除缺失值。 |
|
计算每个组内每一列的第一个条目。 |
|
计算每个组内每一列的最后一个条目。 |
|
返回请求轴上最小值的首次出现的索引。 |
|
返回请求轴上最大值的第一个出现的索引。 |
|
提供滚动变换功能。 |
|
pandas GroupBy.transform 的并行版本 |
自定义聚合¶
|
用户定义的分组聚合。 |
滚动操作¶
|
对每个分区应用一个函数,与相邻分区共享行。 |
|
提供滚动变换功能。 |
|
提供滚动变换功能。 |
|
计算滚动自定义聚合函数。 |
计算非 NaN 观测值的滚动计数。 |
|
计算无偏的滚动Fisher峰度定义。 |
|
计算滚动最大值。 |
|
计算滚动平均值。 |
|
计算滚动中位数。 |
|
计算滚动最小值。 |
|
|
计算滚动分位数。 |
计算滚动无偏斜度。 |
|
|
计算滚动标准差。 |
计算滚动总和。 |
|
|
计算滚动方差。 |
创建数据框¶
|
将 CSV 文件读入 Dask.DataFrame |
|
将分隔文件读入 Dask.DataFrame |
|
将固定宽度的文件读入 Dask.DataFrame |
|
将 Parquet 文件读取到 Dask DataFrame 中 |
|
将 HDF 文件读取到 Dask DataFrame 中 |
|
从一组JSON文件创建一个数据框 |
|
从 ORC 文件中读取数据框 |
|
将 SQL 数据库表读取到 DataFrame 中。 |
|
将 SQL 查询读取到 DataFrame 中。 |
|
将 SQL 查询或数据库表读取到 DataFrame 中。 |
|
将任何可切片数组读入 Dask 数据框 |
|
从 Dask 数组创建一个 Dask DataFrame。 |
|
从许多 Dask Delayed 对象创建 Dask DataFrame。 |
|
从自定义函数映射创建一个 DataFrame 集合。 |
从 Pandas DataFrame 构建 Dask DataFrame |
|
|
从 Python 字典构建 Dask DataFrame |
|
从 Dask Bag 创建 Dask Dataframe。 |
存储数据框¶
|
将 Dask DataFrame 存储为 CSV 文件 |
|
将 Dask.dataframe 存储到 Parquet 文件 |
|
将 Dask DataFrame 存储到分层数据格式 (HDF) 文件 |
|
从 Dask Dataframe 创建 Dask Array |
|
将 Dask 数据框存储到 SQL 表中 |
|
将数据框写入 JSON 文本文件 |
转换数据框¶
|
从 Dask DataFrame 创建 Dask Bag |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为一个 |
重塑 DataFrame¶
|
将分类变量转换为哑变量/指示变量。 |
|
创建一个电子表格样式的数据透视表作为DataFrame。 |
|
将 DataFrame 从宽格式透视为长格式,可以选择保留标识变量集。 |
连接DataFrame¶
|
合并 DataFrame 与另一个 DataFrame |
|
沿行方向连接DataFrame。 |
|
使用数据库风格的连接合并 DataFrame 或命名 Series 对象。 |
|
按键距离执行合并。 |
重采样¶
|
用于重采样时间序列数据的类。 |
|
在指定的轴上使用一个或多个操作进行聚合。 |
计算组的数量,排除缺失值。 |
|
计算每个组内每一列的第一个条目。 |
|
计算每个组内每一列的最后一个条目。 |
|
计算组的最大值。 |
|
计算各组的均值,排除缺失值。 |
|
计算各组的中位数,排除缺失值。 |
|
计算组的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算一组数据的开盘、最高、最低和收盘值,排除缺失值。 |
|
计算组值的乘积。 |
|
返回给定分位数的值。 |
|
计算各组均值的标准误差,排除缺失值。 |
|
计算组大小。 |
|
计算组的样本标准差,排除缺失值。 |
|
计算组值的总和。 |
|
计算各组的方差,排除缺失值。 |
其他功能¶
|
一次计算多个 dask 集合。 |
|
在每个 DataFrame 分区上应用 Python 函数。 |
将参数转换为日期时间。 |
|
|
将参数转换为数值类型。 |
将参数转换为 timedelta。 |