dask.dataframe.groupby.SeriesGroupBy.first

dask.dataframe.groupby.SeriesGroupBy.first¶

SeriesGroupBy.first(split_every=None, split_out=1, shuffle_method=None, numeric_only=_NoDefault.no_default)¶

计算每个组内每一列的第一个条目。

此文档字符串是从 pandas.core.groupby.groupby.GroupBy.first 复制的。

Dask 版本可能存在一些不一致性。

默认跳过 NA 元素。

参数

仅数值bool, 默认 False: 仅包含浮点数、整数、布尔类型的列。
min_countint, 默认 -1 (在 Dask 中不支持): 执行操作所需的有效值数量。如果有效值少于 min_count ，结果将为 NA。
skipnabool, 默认 True (Dask 不支持): 排除NA/空值。如果整行/整列都是NA，结果将是NA。

2.2.1 新版功能.

返回

Series 或 DataFrame: 每个组内的第一个值。

参见

DataFrame.groupby: 对DataFrame的每一行或每一列应用一个groupby函数。
pandas.core.groupby.DataFrameGroupBy.last: 计算每一列的最后一个非空条目。
pandas.core.groupby.DataFrameGroupBy.nth: 从每个组中取第 n 行。

示例

>>> df = pd.DataFrame(dict(A=[1, 1, 3], B=[None, 5, 6], C=[1, 2, 3],  
...                        D=['3/11/2000', '3/12/2000', '3/13/2000']))
>>> df['D'] = pd.to_datetime(df['D'])  
>>> df.groupby("A").first()  
     B  C          D
A
1  5.0  1 2000-03-11
3  6.0  3 2000-03-13
>>> df.groupby("A").first(min_count=2)  
    B    C          D
A
1 NaN  1.0 2000-03-11
3 NaN  NaN        NaT
>>> df.groupby("A").first(numeric_only=True)  
     B  C
A
1  5.0  1
3  6.0  3

dask.dataframe.groupby.SeriesGroupBy.var

dask.dataframe.groupby.SeriesGroupBy.last