dask.dataframe.Index.nsmallest

dask.dataframe.Index.nsmallest¶

Index.nsmallest(n=5, split_every=None)¶

返回最小的 n 个元素。

此文档字符串是从 pandas.core.series.Series.nsmallest 复制而来的。

Dask 版本可能存在一些不一致性。

参数

nint, 默认值为 5

返回这些升序排序的值。

保持{‘first’, ‘last’, ‘all’}, 默认 ‘first’ (Dask 不支持)

当存在不能全部放入 n 元素的 Series 中的重复值时：

first : 返回按出现顺序的前 n 个出现项。
last : 返回最后 n 次出现的逆序。
all : 保留所有出现。这可能导致一个大小大于 n 的 Series。

返回

系列: Series 中最小的 n 个值，按升序排列。

参见

Series.nlargest: 获取 n 个最大的元素。
Series.sort_values: 按值排序系列。
Series.head: 返回前 n 行。

注释

对于相对于 Series 对象大小较小的 n ，比 .sort_values().head(n) 更快。

示例

>>> countries_population = {"Italy": 59000000, "France": 65000000,  
...                         "Brunei": 434000, "Malta": 434000,
...                         "Maldives": 434000, "Iceland": 337000,
...                         "Nauru": 11300, "Tuvalu": 11300,
...                         "Anguilla": 11300, "Montserrat": 5200}
>>> s = pd.Series(countries_population)  
>>> s  
Italy       59000000
France      65000000
Brunei        434000
Malta         434000
Maldives      434000
Iceland       337000
Nauru          11300
Tuvalu         11300
Anguilla       11300
Montserrat      5200
dtype: int64

最小的 n 个元素，其中 n=5 为默认值。

>>> s.nsmallest()  
Montserrat    5200
Nauru        11300
Tuvalu       11300
Anguilla     11300
Iceland     337000
dtype: int64

最小的 n 个元素，其中 n=3。默认的 keep 值是 ‘first’，因此 Nauru 和 Tuvalu 将被保留。

>>> s.nsmallest(3)  
Montserrat   5200
Nauru       11300
Tuvalu      11300
dtype: int64

最小的 n 个元素，其中 n=3 并保留最后的重复项。Anguilla 和 Tuvalu 将被保留，因为它们是基于索引顺序值为 11300 的最后两个。

>>> s.nsmallest(3, keep='last')  
Montserrat   5200
Anguilla    11300
Tuvalu      11300
dtype: int64

最小的 n 个元素，其中 n=3 ，保留所有重复项。注意，返回的 Series 有四个元素，这是由于三个重复项的存在。

>>> s.nsmallest(3, keep='all')  
Montserrat   5200
Nauru       11300
Tuvalu      11300
Anguilla    11300
dtype: int64

dask.dataframe.Index.notnull

dask.dataframe.Index.nunique