dask.dataframe.Series

dask.dataframe.Series

class dask.dataframe.Series(dsk, name, meta, divisions)[源代码]

并行 Pandas 系列

不要直接使用这个类。请使用 dd.read_csvdd.read_parquetdd.from_pandas 等函数。

参数
dsk: dict

计算此系列的 dask 图

_name: str

指定dask中哪些键构成此特定Series的关键前缀

meta: pandas.Series

一个空的 pandas.Series,其名称、数据类型和索引与预期输出匹配。

divisions: 索引值的元组

我们在索引上划分块的值

__init__(dsk, name, meta, divisions)

方法

__init__(dsk, name, meta, divisions)

abs()

返回一个包含每个元素绝对数值的 Series/DataFrame。

add(other[, level, fill_value, axis])

返回序列和其他元素的加法,逐元素进行(二元运算符 add)。

add_prefix(prefix)

使用字符串 prefix 作为标签前缀。

add_suffix(suffix)

使用字符串 suffix 作为后缀标签。

align(other[, join, axis, fill_value])

使用指定的连接方法将两个对象沿其轴对齐。

all([axis, skipna, split_every, out])

返回是否所有元素都为 True,可能是在某个轴上。

any([axis, skipna, split_every, out])

返回是否任何元素为 True,可能在某个轴上。

apply(func[, convert_dtype, meta, args])

pandas.Series.apply 的并行版本

astype(dtype)

将 pandas 对象转换为指定的数据类型 dtype

autocorr([lag, split_every])

计算滞后N的自相关。

between(left, right[, inclusive])

返回布尔序列,等价于 left <= 序列 <= right。

bfill([axis, limit])

使用下一个有效观测值来填充NA/NaN值。

clear_divisions()

忘记部门信息

clip([lower, upper, axis])

在输入阈值处修剪值。

combine(other, func[, fill_value])

根据 func 将 Series 与 Series 或标量组合。

combine_first(other)

使用 'other' 中相同位置的值更新空元素。

compute(**kwargs)

计算这个 dask 集合

compute_current_divisions([col])

计算DataFrame的当前分区。

copy([deep])

复制数据框

corr(other[, method, min_periods, split_every])

计算与 other Series 的相关性,排除缺失值。

count([split_every])

返回Series中非NA/null观测值的数量。

cov(other[, min_periods, split_every])

计算与 Series 的协方差,排除缺失值。

cummax([axis, skipna, out])

返回 DataFrame 或 Series 轴上的累积最大值。

cummin([axis, skipna, out])

返回 DataFrame 或 Series 轴上的累积最小值。

cumprod([axis, skipna, dtype, out])

返回 DataFrame 或 Series 轴上的累积乘积。

cumsum([axis, skipna, dtype, out])

返回 DataFrame 或 Series 轴上的累积和。

describe([split_every, percentiles, ...])

生成描述性统计数据。

diff([periods, axis])

元素的第一次离散差分。

div(other[, level, fill_value, axis])

返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。

divide(other[, level, fill_value, axis])

返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。

dot(other[, meta])

计算 Series 与 other 列之间的点积。

drop_duplicates([subset, split_every, ...])

返回删除重复行后的DataFrame。

dropna()

返回一个移除了缺失值的新序列。

enforce_runtime_divisions()

在运行时强制执行当前分区

eq(other[, level, fill_value, axis])

返回序列与其他元素逐项相等的比较结果(二元运算符 eq)。

explode()

将类似列表的每个元素转换为一行。

ffill([axis, limit])

通过将最后一个有效观测值传播到下一个有效值来填充 NA/NaN 值。

fillna([value, method, limit, axis])

使用指定方法填充 NA/NaN 值。

first(offset)

根据日期偏移选择时间序列数据的初始时间段。

floordiv(other[, level, fill_value, axis])

返回序列和另一个序列的整数除法,逐元素进行(二元运算符 floordiv)。

ge(other[, level, fill_value, axis])

返回序列和其他元素的“大于等于”比较结果,逐元素进行(二元运算符 ge)。

get_partition(n)

获取表示第 nth 分区的 dask DataFrame/Series。

groupby([by, group_keys, sort, observed, dropna])

使用映射器或通过一系列列来分组系列。

gt(other[, level, fill_value, axis])

返回序列和其他元素逐项比较大于的结果(二元运算符 gt)。

head([n, npartitions, compute])

数据集的前 n 行

idxmax([axis, skipna, split_every, numeric_only])

返回请求轴上最大值的第一个出现的索引。

idxmin([axis, skipna, split_every, numeric_only])

返回请求轴上最小值的首次出现的索引。

isin(values)

Series 中的元素是否包含在 values 中。

isna()

检测缺失值。

isnull()

DataFrame.isnull 是 DataFrame.isna 的别名。

kurtosis([axis, fisher, bias, nan_policy, ...])

返回请求轴上的无偏峰度。

last(offset)

根据日期偏移选择时间序列数据的最后时间段。

le(other[, level, fill_value, axis])

返回序列和其他元素的“小于等于”比较结果,逐元素进行(二元运算符 le)。

lt(other[, level, fill_value, axis])

返回序列和另一个序列的逐元素小于比较结果(二元运算符 lt)。

map(arg[, na_action, meta])

根据输入的映射或函数映射 Series 的值。

map_overlap(func, before, after, *args, **kwargs)

对每个分区应用一个函数,与相邻分区共享行。

map_partitions(func, *args, **kwargs)

在每个 DataFrame 分区上应用 Python 函数。

mask(cond[, other])

替换条件为 True 的值。

max([axis, skipna, split_every, out, ...])

返回请求轴上的值的最大值。

mean([axis, skipna, split_every, dtype, ...])

返回请求轴上值的平均值。

median([method])

返回请求轴上值的中位数。

median_approximate([method])

返回请求轴上值的近似中位数。

memory_usage([index, deep])

返回 Series 的内存使用情况。

memory_usage_per_partition([index, deep])

返回每个分区的内存使用情况

min([axis, skipna, split_every, out, ...])

返回请求轴上值的最小值。

mod(other[, level, fill_value, axis])

返回序列和其他的模数,逐元素进行(二元运算符 mod)。

mode([dropna, split_every])

返回 Series 的模式。

mul(other[, level, fill_value, axis])

返回序列与其他对象的逐元素乘法(二元运算符 mul)。

ne(other[, level, fill_value, axis])

返回序列与其他的元素不等价结果,逐元素操作(二元运算符 ne)。

nlargest([n, split_every])

返回最大的 n 个元素。

notnull()

DataFrame.notnull 是 DataFrame.notna 的别名。

nsmallest([n, split_every])

返回最小的 n 个元素。

nunique([split_every, dropna])

返回对象中唯一元素的数量。

nunique_approx([split_every])

唯一行的近似数量。

persist(**kwargs)

将此 dask 集合持久化到内存中

pipe(func, *args, **kwargs)

应用期望 Series 或 DataFrame 的可链式函数。

pow(other[, level, fill_value, axis])

返回序列和其他元素的指数幂(二元运算符 pow)。

prod([axis, skipna, split_every, dtype, ...])

返回请求轴上值的乘积。

product([axis, skipna, split_every, dtype, ...])

返回请求轴上值的乘积。

quantile([q, method])

Series 的近似分位数

radd(other[, level, fill_value, axis])

返回序列和其他元素的加法,逐元素进行(二元运算符 radd)。

random_split(frac[, random_state, shuffle])

伪随机地将数据框按行分割成不同的部分

rdiv(other[, level, fill_value, axis])

返回序列和其他的浮点数除法,逐元素进行(二元运算符 rtruediv)。

reduction(chunk[, aggregate, combine, meta, ...])

通用行级归约。

rename([index, inplace, sorted_index])

修改系列索引标签或名称

repartition([divisions, npartitions, ...])

沿新分区重新分区数据框

replace([to_replace, value, regex])

to_replace 中的值替换为 value

resample(rule[, closed, label])

重采样时间序列数据。

reset_index([drop])

将索引重置为默认索引。

rfloordiv(other[, level, fill_value, axis])

返回序列和其他元素的整数除法,逐元素操作(二元运算符 rfloordiv)。

rmod(other[, level, fill_value, axis])

返回序列和其他的模数,逐元素进行(二元运算符 rmod)。

rmul(other[, level, fill_value, axis])

返回序列与其他对象的逐元素乘法(二元运算符 rmul)。

rolling(window[, min_periods, center, ...])

提供滚动变换功能。

round([decimals])

将 Series 中的每个值四舍五入到给定的位数。

rpow(other[, level, fill_value, axis])

返回序列和其他元素的指数幂(二元运算符 rpow)。

rsub(other[, level, fill_value, axis])

返回序列和其他元素的减法结果,逐元素操作(二元运算符 rsub)。

rtruediv(other[, level, fill_value, axis])

返回序列和其他的浮点数除法,逐元素进行(二元运算符 rtruediv)。

sample([n, frac, replace, random_state])

随机样本项

sem([axis, skipna, ddof, split_every, ...])

返回请求轴上的无偏标准误差。

shift([periods, freq, axis])

通过可选的时间 freq 将索引按所需周期数进行移位。

shuffle(on[, npartitions, max_branch, ...])

将 DataFrame 重新排列为新的分区

skew([axis, bias, nan_policy, out, numeric_only])

返回请求轴上的无偏斜度。

squeeze()

将一维轴对象压缩为标量。

std([axis, skipna, ddof, split_every, ...])

返回请求轴上的样本标准差。

sub(other[, level, fill_value, axis])

返回序列和其他元素的减法结果,逐元素进行(二元运算符 sub)。

sum([axis, skipna, split_every, dtype, out, ...])

返回请求轴上值的总和。

tail([n, compute])

数据集的最后 n 行

to_backend([backend])

切换到新的 DataFrame 后端

to_bag([index, format])

从 Series 创建一个 Dask Bag

to_csv(filename, **kwargs)

将 Dask DataFrame 存储为 CSV 文件

to_dask_array([lengths, meta])

将 dask DataFrame 转换为 dask 数组。

to_delayed([optimize_graph])

转换为一个 dask.delayed 对象列表,每个分区一个。

to_frame([name])

将 Series 转换为 DataFrame。

to_hdf(path_or_buf, key[, mode, append])

将 Dask DataFrame 存储到分层数据格式 (HDF) 文件

to_json(filename, *args, **kwargs)

更多信息请参见 dd.to_json 的文档字符串

to_sql(name, uri[, schema, if_exists, ...])

有关更多信息,请参阅 dd.to_sql 的文档字符串

to_string([max_rows])

渲染 Series 的字符串表示。

to_timestamp([freq, how, axis])

将时间戳转换为时间段的 开始 的 DatetimeIndex。

truediv(other[, level, fill_value, axis])

返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。

unique([split_every, split_out])

返回对象中的唯一值序列。

value_counts([sort, ascending, dropna, ...])

返回一个包含唯一值计数的系列。

var([axis, skipna, ddof, split_every, ...])

返回请求轴上的无偏方差。

view(dtype)

创建一个新的 Series 视图。

visualize([filename, format, optimize_graph])

使用 graphviz 渲染此对象任务图的计算。

where(cond[, other])

替换条件为 False 的值。

属性

attrs

此数据集的全局属性字典。

axes

divisions

npartitions + 1 值的元组,按升序排列,标记每个分区索引的下限/上限。

dtype

返回数据类型

index

返回 dask 索引实例

is_monotonic_decreasing

如果对象中的值是单调递减的,则返回布尔值。

is_monotonic_increasing

如果对象中的值是单调递增的,则返回布尔值。

known_divisions

分区是否已知

loc

纯标签位置索引器,用于按标签选择。

name

nbytes

字节数

ndim

返回维度

npartitions

返回分区数量

partitions

按分区切片数据框

shape

返回一个表示 Series 维度的元组。

size

Series 或 DataFrame 的大小作为 Delayed 对象。

values

返回此数据框值的 dask.array