pandas.api.extensions.ExtensionArray.factorize#

ExtensionArray.factorize(use_na_sentinel=True)[源代码][源代码]#

将扩展数组编码为枚举类型。

参数:

use_na_sentinel布尔值, 默认为 True: 如果为True，NaN值将使用哨兵-1。如果为False，NaN值将被编码为非负整数，并且不会从值的唯一性中删除NaN。

Added in version 1.5.0.

返回:

代码ndarray: 一个整数 NumPy 数组，它是原始 ExtensionArray 的索引器。
uniquesExtensionArray: 包含 self 的唯一值的 ExtensionArray。

备注

如果 self 中存在任何缺失值，uniques 将*不*包含 ExtensionArray 的 NA 值的条目。

参见

factorize: 顶级因式分解方法，分派到这里。

注释

pandas.factorize() 也提供了一个 sort 关键字。

例子

>>> idx1 = pd.PeriodIndex(
...     ["2014-01", "2014-01", "2014-02", "2014-02", "2014-03", "2014-03"],
...     freq="M",
... )
>>> arr, idx = idx1.factorize()
>>> arr
array([0, 0, 1, 1, 2, 2])
>>> idx
PeriodIndex(['2014-01', '2014-02', '2014-03'], dtype='period[M]')