pandas.Series.cat.set_categories#

Series.cat.set_categories(*args, **kwargs)[源代码]#

将类别设置为指定的新类别。

new_categories 可以包括新类别（这将导致未使用的类别）或删除旧类别（这将导致值设置为 NaN）。如果 rename=True，类别将简单地重命名（旧类别中少或多于项目将分别导致值设置为 NaN 或未使用的类别）。

这种方法可以用于同时执行多个操作，包括添加、删除和重新排序，因此比通过更专业的方法执行单个步骤更快。

另一方面，这种方法不进行检查（例如，在重新排序时，旧类别是否包含在新类别中），这可能导致令人惊讶的变化，例如在使用特殊字符串数据类型时，这些数据类型不认为S1字符串等于单个字符的Python字符串。

参数:

new_categoriesIndex-like: 新顺序中的类别。
有序布尔值, 默认为 None: 是否将分类变量视为有序分类变量。如果未指定，则不更改有序信息。
重命名布尔值, 默认为 False: 新类别是否应被视为旧类别的重命名或作为重新排序的类别。

返回:

Categorical: 新类别将被使用，可选的顺序更改。

引发:

ValueError: 如果 new_categories 不能验证为类别

参见

rename_categories: 重命名类别。
reorder_categories: 重新排序类别。
add_categories: 添加新类别。
remove_categories: 移除指定的类别。
remove_unused_categories: 移除未使用的分类。

例子

对于 pandas.Series:

>>> raw_cat = pd.Categorical(
...     ["a", "b", "c", "A"], categories=["a", "b", "c"], ordered=True
... )
>>> ser = pd.Series(raw_cat)
>>> ser
0   a
1   b
2   c
3   NaN
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

>>> ser.cat.set_categories(["A", "B", "C"], rename=True)
0   A
1   B
2   C
3   NaN
dtype: category
Categories (3, object): ['A' < 'B' < 'C']

对于 pandas.CategoricalIndex:

>>> ci = pd.CategoricalIndex(
...     ["a", "b", "c", "A"], categories=["a", "b", "c"], ordered=True
... )
>>> ci
CategoricalIndex(['a', 'b', 'c', nan], categories=['a', 'b', 'c'],
                 ordered=True, dtype='category')

>>> ci.set_categories(["A", "b", "c"])
CategoricalIndex([nan, 'b', 'c', nan], categories=['A', 'b', 'c'],
                 ordered=True, dtype='category')
>>> ci.set_categories(["A", "b", "c"], rename=True)
CategoricalIndex(['A', 'b', 'c', nan], categories=['A', 'b', 'c'],
                 ordered=True, dtype='category')