dask.dataframe.Series
dask.dataframe.Series¶
- class dask.dataframe.Series(dsk, name, meta, divisions)[源代码]¶
并行 Pandas 系列
不要直接使用这个类。请使用
dd.read_csv
、dd.read_parquet
或dd.from_pandas
等函数。- 参数
- dsk: dict
计算此系列的 dask 图
- _name: str
指定dask中哪些键构成此特定Series的关键前缀
- meta: pandas.Series
一个空的
pandas.Series
,其名称、数据类型和索引与预期输出匹配。- divisions: 索引值的元组
我们在索引上划分块的值
- __init__(dsk, name, meta, divisions)¶
方法
__init__
(dsk, name, meta, divisions)abs
()返回一个包含每个元素绝对数值的 Series/DataFrame。
add
(other[, level, fill_value, axis])返回序列和其他元素的加法,逐元素进行(二元运算符 add)。
add_prefix
(prefix)使用字符串 prefix 作为标签前缀。
add_suffix
(suffix)使用字符串 suffix 作为后缀标签。
align
(other[, join, axis, fill_value])使用指定的连接方法将两个对象沿其轴对齐。
all
([axis, skipna, split_every, out])返回是否所有元素都为 True,可能是在某个轴上。
any
([axis, skipna, split_every, out])返回是否任何元素为 True,可能在某个轴上。
apply
(func[, convert_dtype, meta, args])pandas.Series.apply 的并行版本
astype
(dtype)将 pandas 对象转换为指定的数据类型
dtype
。autocorr
([lag, split_every])计算滞后N的自相关。
between
(left, right[, inclusive])返回布尔序列,等价于 left <= 序列 <= right。
bfill
([axis, limit])使用下一个有效观测值来填充NA/NaN值。
忘记部门信息
clip
([lower, upper, axis])在输入阈值处修剪值。
combine
(other, func[, fill_value])根据 func 将 Series 与 Series 或标量组合。
combine_first
(other)使用 'other' 中相同位置的值更新空元素。
compute
(**kwargs)计算这个 dask 集合
compute_current_divisions
([col])计算DataFrame的当前分区。
copy
([deep])复制数据框
corr
(other[, method, min_periods, split_every])计算与 other Series 的相关性,排除缺失值。
count
([split_every])返回Series中非NA/null观测值的数量。
cov
(other[, min_periods, split_every])计算与 Series 的协方差,排除缺失值。
cummax
([axis, skipna, out])返回 DataFrame 或 Series 轴上的累积最大值。
cummin
([axis, skipna, out])返回 DataFrame 或 Series 轴上的累积最小值。
cumprod
([axis, skipna, dtype, out])返回 DataFrame 或 Series 轴上的累积乘积。
cumsum
([axis, skipna, dtype, out])返回 DataFrame 或 Series 轴上的累积和。
describe
([split_every, percentiles, ...])生成描述性统计数据。
diff
([periods, axis])元素的第一次离散差分。
div
(other[, level, fill_value, axis])返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。
divide
(other[, level, fill_value, axis])返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。
dot
(other[, meta])计算 Series 与 other 列之间的点积。
drop_duplicates
([subset, split_every, ...])返回删除重复行后的DataFrame。
dropna
()返回一个移除了缺失值的新序列。
enforce_runtime_divisions
()在运行时强制执行当前分区
eq
(other[, level, fill_value, axis])返回序列与其他元素逐项相等的比较结果(二元运算符 eq)。
explode
()将类似列表的每个元素转换为一行。
ffill
([axis, limit])通过将最后一个有效观测值传播到下一个有效值来填充 NA/NaN 值。
fillna
([value, method, limit, axis])使用指定方法填充 NA/NaN 值。
first
(offset)根据日期偏移选择时间序列数据的初始时间段。
floordiv
(other[, level, fill_value, axis])返回序列和另一个序列的整数除法,逐元素进行(二元运算符 floordiv)。
ge
(other[, level, fill_value, axis])返回序列和其他元素的“大于等于”比较结果,逐元素进行(二元运算符 ge)。
获取表示第 nth 分区的 dask DataFrame/Series。
groupby
([by, group_keys, sort, observed, dropna])使用映射器或通过一系列列来分组系列。
gt
(other[, level, fill_value, axis])返回序列和其他元素逐项比较大于的结果(二元运算符 gt)。
head
([n, npartitions, compute])数据集的前 n 行
idxmax
([axis, skipna, split_every, numeric_only])返回请求轴上最大值的第一个出现的索引。
idxmin
([axis, skipna, split_every, numeric_only])返回请求轴上最小值的首次出现的索引。
isin
(values)Series 中的元素是否包含在 values 中。
isna
()检测缺失值。
isnull
()DataFrame.isnull 是 DataFrame.isna 的别名。
kurtosis
([axis, fisher, bias, nan_policy, ...])返回请求轴上的无偏峰度。
last
(offset)根据日期偏移选择时间序列数据的最后时间段。
le
(other[, level, fill_value, axis])返回序列和其他元素的“小于等于”比较结果,逐元素进行(二元运算符 le)。
lt
(other[, level, fill_value, axis])返回序列和另一个序列的逐元素小于比较结果(二元运算符 lt)。
map
(arg[, na_action, meta])根据输入的映射或函数映射 Series 的值。
map_overlap
(func, before, after, *args, **kwargs)对每个分区应用一个函数,与相邻分区共享行。
map_partitions
(func, *args, **kwargs)在每个 DataFrame 分区上应用 Python 函数。
mask
(cond[, other])替换条件为 True 的值。
max
([axis, skipna, split_every, out, ...])返回请求轴上的值的最大值。
mean
([axis, skipna, split_every, dtype, ...])返回请求轴上值的平均值。
median
([method])返回请求轴上值的中位数。
median_approximate
([method])返回请求轴上值的近似中位数。
memory_usage
([index, deep])返回 Series 的内存使用情况。
memory_usage_per_partition
([index, deep])返回每个分区的内存使用情况
min
([axis, skipna, split_every, out, ...])返回请求轴上值的最小值。
mod
(other[, level, fill_value, axis])返回序列和其他的模数,逐元素进行(二元运算符 mod)。
mode
([dropna, split_every])返回 Series 的模式。
mul
(other[, level, fill_value, axis])返回序列与其他对象的逐元素乘法(二元运算符 mul)。
ne
(other[, level, fill_value, axis])返回序列与其他的元素不等价结果,逐元素操作(二元运算符 ne)。
nlargest
([n, split_every])返回最大的 n 个元素。
notnull
()DataFrame.notnull 是 DataFrame.notna 的别名。
nsmallest
([n, split_every])返回最小的 n 个元素。
nunique
([split_every, dropna])返回对象中唯一元素的数量。
nunique_approx
([split_every])唯一行的近似数量。
persist
(**kwargs)将此 dask 集合持久化到内存中
pipe
(func, *args, **kwargs)应用期望 Series 或 DataFrame 的可链式函数。
pow
(other[, level, fill_value, axis])返回序列和其他元素的指数幂(二元运算符 pow)。
prod
([axis, skipna, split_every, dtype, ...])返回请求轴上值的乘积。
product
([axis, skipna, split_every, dtype, ...])返回请求轴上值的乘积。
quantile
([q, method])Series 的近似分位数
radd
(other[, level, fill_value, axis])返回序列和其他元素的加法,逐元素进行(二元运算符 radd)。
random_split
(frac[, random_state, shuffle])伪随机地将数据框按行分割成不同的部分
rdiv
(other[, level, fill_value, axis])返回序列和其他的浮点数除法,逐元素进行(二元运算符 rtruediv)。
reduction
(chunk[, aggregate, combine, meta, ...])通用行级归约。
rename
([index, inplace, sorted_index])修改系列索引标签或名称
repartition
([divisions, npartitions, ...])沿新分区重新分区数据框
replace
([to_replace, value, regex])将 to_replace 中的值替换为 value。
resample
(rule[, closed, label])重采样时间序列数据。
reset_index
([drop])将索引重置为默认索引。
rfloordiv
(other[, level, fill_value, axis])返回序列和其他元素的整数除法,逐元素操作(二元运算符 rfloordiv)。
rmod
(other[, level, fill_value, axis])返回序列和其他的模数,逐元素进行(二元运算符 rmod)。
rmul
(other[, level, fill_value, axis])返回序列与其他对象的逐元素乘法(二元运算符 rmul)。
rolling
(window[, min_periods, center, ...])提供滚动变换功能。
round
([decimals])将 Series 中的每个值四舍五入到给定的位数。
rpow
(other[, level, fill_value, axis])返回序列和其他元素的指数幂(二元运算符 rpow)。
rsub
(other[, level, fill_value, axis])返回序列和其他元素的减法结果,逐元素操作(二元运算符 rsub)。
rtruediv
(other[, level, fill_value, axis])返回序列和其他的浮点数除法,逐元素进行(二元运算符 rtruediv)。
sample
([n, frac, replace, random_state])随机样本项
sem
([axis, skipna, ddof, split_every, ...])返回请求轴上的无偏标准误差。
shift
([periods, freq, axis])通过可选的时间 freq 将索引按所需周期数进行移位。
shuffle
(on[, npartitions, max_branch, ...])将 DataFrame 重新排列为新的分区
skew
([axis, bias, nan_policy, out, numeric_only])返回请求轴上的无偏斜度。
squeeze
()将一维轴对象压缩为标量。
std
([axis, skipna, ddof, split_every, ...])返回请求轴上的样本标准差。
sub
(other[, level, fill_value, axis])返回序列和其他元素的减法结果,逐元素进行(二元运算符 sub)。
sum
([axis, skipna, split_every, dtype, out, ...])返回请求轴上值的总和。
tail
([n, compute])数据集的最后 n 行
to_backend
([backend])切换到新的 DataFrame 后端
to_bag
([index, format])从 Series 创建一个 Dask Bag
to_csv
(filename, **kwargs)将 Dask DataFrame 存储为 CSV 文件
to_dask_array
([lengths, meta])将 dask DataFrame 转换为 dask 数组。
to_delayed
([optimize_graph])转换为一个
dask.delayed
对象列表,每个分区一个。to_frame
([name])将 Series 转换为 DataFrame。
to_hdf
(path_or_buf, key[, mode, append])将 Dask DataFrame 存储到分层数据格式 (HDF) 文件
to_json
(filename, *args, **kwargs)更多信息请参见 dd.to_json 的文档字符串
to_sql
(name, uri[, schema, if_exists, ...])有关更多信息,请参阅 dd.to_sql 的文档字符串
to_string
([max_rows])渲染 Series 的字符串表示。
to_timestamp
([freq, how, axis])将时间戳转换为时间段的 开始 的 DatetimeIndex。
truediv
(other[, level, fill_value, axis])返回序列和其他元素的浮点数除法,逐元素进行(二元运算符 truediv)。
unique
([split_every, split_out])返回对象中的唯一值序列。
value_counts
([sort, ascending, dropna, ...])返回一个包含唯一值计数的系列。
var
([axis, skipna, ddof, split_every, ...])返回请求轴上的无偏方差。
view
(dtype)创建一个新的 Series 视图。
visualize
([filename, format, optimize_graph])使用 graphviz 渲染此对象任务图的计算。
where
(cond[, other])替换条件为 False 的值。
属性
attrs
此数据集的全局属性字典。
axes
divisions
npartitions + 1
值的元组,按升序排列,标记每个分区索引的下限/上限。返回数据类型
index
返回 dask 索引实例
is_monotonic_decreasing
如果对象中的值是单调递减的,则返回布尔值。
is_monotonic_increasing
如果对象中的值是单调递增的,则返回布尔值。
分区是否已知
纯标签位置索引器,用于按标签选择。
name
字节数
返回维度
npartitions
返回分区数量
partitions
按分区切片数据框
返回一个表示 Series 维度的元组。
Series 或 DataFrame 的大小作为 Delayed 对象。
返回此数据框值的 dask.array