langchain_experimental.data_anonymizer.presidio.PresidioAnonymizerBase

class langchain_experimental.data_anonymizer.presidio.PresidioAnonymizerBase(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]

Base 使用Microsoft Presidio的匿名化工具。

See more: https://microsoft.github.io/presidio/

参数: analyzed_fields:需要检测然后进行匿名化的字段列表。

默认为Microsoft Presidio支持的所有实体。

operators:用于匿名化的操作符。

操作符允许对检测到的个人身份信息进行自定义匿名化。 了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/

languages_config:NLP引擎的配置。

列表中的第一个语言将在未指定语言时作为self.anonymize(…)中的主要语言使用。 了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/

faker_seed:用于初始化faker的种子。

默认为None,此时faker将被随机种子化并提供随机值。

Methods

__init__([analyzed_fields, operators, ...])

参数: analyzed_fields:需要检测然后进行匿名化的字段列表。 默认为Microsoft Presidio支持的所有实体。 operators:用于匿名化的操作符。 操作符允许对检测到的个人身份信息进行自定义匿名化。 了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/ languages_config:NLP引擎的配置。 列表中的第一个语言将在未指定语言时作为self.anonymize(...)中的主要语言使用。 了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/ faker_seed:用于初始化faker的种子。 默认为None,此时faker将被随机种子化并提供随机值。

add_operators(operators)

将运算符添加到匿名化器

add_recognizer(recognizer)

向分析器添加一个识别器

anonymize(text[, language, allow_list])

文本匿名化。

Parameters
  • analyzed_fields (Optional[List[str]]) –

  • operators (Optional[Dict[str, OperatorConfig]]) –

  • languages_config (Optional[Dict]) –

  • add_default_faker_operators (bool) –

  • faker_seed (Optional[int]) –

__init__(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]

参数: analyzed_fields:需要检测然后进行匿名化的字段列表。

默认为Microsoft Presidio支持的所有实体。

operators:用于匿名化的操作符。

操作符允许对检测到的个人身份信息进行自定义匿名化。 了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/

languages_config:NLP引擎的配置。

列表中的第一个语言将在未指定语言时作为self.anonymize(…)中的主要语言使用。 了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/

faker_seed:用于初始化faker的种子。

默认为None,此时faker将被随机种子化并提供随机值。

Parameters
  • analyzed_fields (Optional[List[str]]) –

  • operators (Optional[Dict[str, OperatorConfig]]) –

  • languages_config (Optional[Dict]) –

  • add_default_faker_operators (bool) –

  • faker_seed (Optional[int]) –

add_operators(operators: Dict[str, OperatorConfig]) None[source]

将运算符添加到匿名化器

参数:

operators:要添加到匿名化器的运算符。

Parameters

operators (Dict[str, OperatorConfig]) –

Return type

None

add_recognizer(recognizer: EntityRecognizer) None[source]

向分析器添加一个识别器

参数: recognizer: 要添加到分析器中的识别器。

Parameters

recognizer (EntityRecognizer) –

Return type

None

anonymize(text: str, language: Optional[str] = None, allow_list: Optional[List[str]] = None) str

文本匿名化。

Parameters
  • text (str) –

  • language (Optional[str]) –

  • allow_list (Optional[List[str]]) –

Return type

str