langchain_experimental.data_anonymizer.presidio
.PresidioReversibleAnonymizer¶
- class langchain_experimental.data_anonymizer.presidio.PresidioReversibleAnonymizer(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]¶
Reversible 使用Microsoft Presidio的匿名化工具。
参数: analyzed_fields:需要检测然后进行匿名化的字段列表。
默认为Microsoft Presidio支持的所有实体。
- operators:用于匿名化的操作符。
操作符允许对检测到的个人身份信息进行自定义匿名化。 了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/
- languages_config:NLP引擎的配置。
列表中的第一个语言将在未指定语言时作为self.anonymize(…)中的主要语言使用。 了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/
- faker_seed:用于初始化faker的种子。
默认为None,此时faker将被随机种子化并提供随机值。
Attributes
anonymizer_mapping
返回匿名化映射 这只是反向版本的去匿名化映射。
deanonymizer_mapping
返回去匿名化映射
Methods
__init__
([analyzed_fields, operators, ...])参数: analyzed_fields:需要检测然后进行匿名化的字段列表。 默认为Microsoft Presidio支持的所有实体。 operators:用于匿名化的操作符。 操作符允许对检测到的个人身份信息进行自定义匿名化。 了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/ languages_config:NLP引擎的配置。 列表中的第一个语言将在未指定语言时作为self.anonymize(...)中的主要语言使用。 了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/ faker_seed:用于初始化faker的种子。 默认为None,此时faker将被随机种子化并提供随机值。
add_operators
(operators)将运算符添加到匿名化器
add_recognizer
(recognizer)向分析器添加一个识别器
anonymize
(text[, language, allow_list])文本匿名化。
deanonymize
(text_to_deanonymize[, ...])识别文本
load_deanonymizer_mapping
(file_path)从JSON或YAML文件中加载去匿名化映射。
重置去匿名化映射
save_deanonymizer_mapping
(file_path)将 deanonymizer 映射保存到 JSON 或 YAML 文件中。
- Parameters
analyzed_fields (Optional[List[str]]) –
operators (Optional[Dict[str, OperatorConfig]]) –
languages_config (Optional[Dict]) –
add_default_faker_operators (bool) –
faker_seed (Optional[int]) –
- __init__(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]¶
参数: analyzed_fields:需要检测然后进行匿名化的字段列表。
默认为Microsoft Presidio支持的所有实体。
- operators:用于匿名化的操作符。
操作符允许对检测到的个人身份信息进行自定义匿名化。 了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/
- languages_config:NLP引擎的配置。
列表中的第一个语言将在未指定语言时作为self.anonymize(…)中的主要语言使用。 了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/
- faker_seed:用于初始化faker的种子。
默认为None,此时faker将被随机种子化并提供随机值。
- Parameters
analyzed_fields (Optional[List[str]]) –
operators (Optional[Dict[str, OperatorConfig]]) –
languages_config (Optional[Dict]) –
add_default_faker_operators (bool) –
faker_seed (Optional[int]) –
- add_operators(operators: Dict[str, OperatorConfig]) None ¶
将运算符添加到匿名化器
- 参数:
operators:要添加到匿名化器的运算符。
- Parameters
operators (Dict[str, OperatorConfig]) –
- Return type
None
- add_recognizer(recognizer: EntityRecognizer) None ¶
向分析器添加一个识别器
参数: recognizer: 要添加到分析器中的识别器。
- Parameters
recognizer (EntityRecognizer) –
- Return type
None
- anonymize(text: str, language: Optional[str] = None, allow_list: Optional[List[str]] = None) str ¶
文本匿名化。
- Parameters
text (str) –
language (Optional[str]) –
allow_list (Optional[List[str]]) –
- Return type
str
- deanonymize(text_to_deanonymize: str, deanonymizer_matching_strategy: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Dict[str, str]]], str] = <function exact_matching_strategy>) str ¶
识别文本
- Parameters
text_to_deanonymize (str) –
deanonymizer_matching_strategy (Callable[[str, Dict[str, Dict[str, str]]], str]) –
- Return type
str