Skip to content

Mbox

MboxReader #

Bases: BaseReader

Mbox邮件阅读器。 读取以mbox格式保存的一组电子邮件。

Source code in llama_index/readers/mbox/base.py
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
class MboxReader(BaseReader):
    """Mbox邮件阅读器。
读取以mbox格式保存的一组电子邮件。"""

    def __init__(self) -> None:
        """初始化。"""

    def load_data(self, input_dir: str, **load_kwargs: Any) -> List[Document]:
        """从输入目录加载数据。

load_kwargs:
    max_count(int):要读取的最大消息数量。
    message_format(str):覆盖默认的消息格式。
"""
        docs: List[Document] = []
        for dirpath, dirnames, filenames in os.walk(input_dir):
            dirnames[:] = [d for d in dirnames if not d.startswith(".")]
            for filename in filenames:
                if filename.endswith(".mbox"):
                    filepath = os.path.join(dirpath, filename)
                    file_docs = MboxFileReader(**load_kwargs).load_data(Path(filepath))
                    docs.extend(file_docs)
        return docs

load_data #

load_data(
    input_dir: str, **load_kwargs: Any
) -> List[Document]

从输入目录加载数据。

load_kwargs: max_count(int):要读取的最大消息数量。 message_format(str):覆盖默认的消息格式。

Source code in llama_index/readers/mbox/base.py
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
    def load_data(self, input_dir: str, **load_kwargs: Any) -> List[Document]:
        """从输入目录加载数据。

load_kwargs:
    max_count(int):要读取的最大消息数量。
    message_format(str):覆盖默认的消息格式。
"""
        docs: List[Document] = []
        for dirpath, dirnames, filenames in os.walk(input_dir):
            dirnames[:] = [d for d in dirnames if not d.startswith(".")]
            for filename in filenames:
                if filename.endswith(".mbox"):
                    filepath = os.path.join(dirpath, filename)
                    file_docs = MboxFileReader(**load_kwargs).load_data(Path(filepath))
                    docs.extend(file_docs)
        return docs