Mlxtend.text - mlxtend

mlxtend version: 0.23.1

generalize_names

generalize_names(name, output_sep=' ', firstname_output_letters=1)

泛化一个人的姓和名.

描述 : 返回一个人的姓名,格式为

<姓><分隔符><名字的首字母(或多字母)> (全部小写)

Parameters

name : str

玩家的姓名
output_sep : str (默认值: ' ')

用于分隔输出中姓和名的字符串.
firstname_output_letters : int

缩写名字中的字母数.

Returns

gen_name : str

泛化后的姓名.

Examples

有关使用示例,请参见 https://rasbt.github.io/mlxtend/user_guide/text/generalize_names/

generalize_names_duplcheck

generalize_names_duplcheck(df, col_name)

泛化名称并去除重复项.

描述 : 对包含一个默认首字母的DataFrame应用mlxtend.text.generalize_names,

并在检测到重复项时使用更多的首字母.

Parameters

df : pandas.DataFrame

包含应应用generalize_names的列的DataFrame.
col_name : str

应将generalize_names函数应用于的DataFrame列的名称.

Returns

df_new : str

已应用generalize_names函数且无重复项的新DataFrame对象.

Examples

有关使用示例,请参见 https://rasbt.github.io/mlxtend/user_guide/text/generalize_names_duplcheck/

tokenizer_emoticons

tokenizer_emoticons(text)

返回文本中的表情符号

Examples

    >>> tokenizer_emoticons('</a>This :) is :( a test :-)!')
    [':)', ':(', ':-)']

    有关使用示例,请参见
    https://rasbt.github.io/mlxtend/user_guide/text/tokenizer_emoticons/

tokenizer_words_and_emoticons

tokenizer_words_and_emoticons(text)

将文本转换为小写单词和表情符号.

Examples

    >>> tokenizer_words_and_emoticons('</a>This :) is :( a test :-)!')
    ['this', 'is', 'a', 'test', ':)', ':(', ':-)']

    更多使用示例,请参见
    https://rasbt.github.io/mlxtend/user_guide/text/tokenizer_words_and_emoticons/