Skip to content

Snscrape twitter

SnscrapeTwitterReader #

Bases: BaseReader

SnscrapeTwitter阅读器。从twitter个人资料中读取数据。

Parameters:

Name Type Description Default
username str

Twitter用户名。

required
num_tweets int

要获取的推文数量。

required
Source code in llama_index/readers/snscrape_twitter/base.py
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
class SnscrapeTwitterReader(BaseReader):
    """SnscrapeTwitter阅读器。从twitter个人资料中读取数据。

    Args:
        username (str): Twitter用户名。
        num_tweets (int): 要获取的推文数量。"""

    def __init__(self) -> None:
        """初始化SnscrapeTwitter阅读器。"""

    def load_data(self, username: str, num_tweets: int) -> List[Document]:
        """从twitter个人资料加载数据。

Args:
    username (str): Twitter用户名。
    num_tweets (int): 需要获取的推文数量。

Returns:
    List[Document]: 文档列表。
"""
        import snscrape.modules.twitter as sntwitter

        attributes_container = []
        for i, tweet in enumerate(
            sntwitter.TwitterSearchScraper(f"from:{username}").get_items()
        ):
            if i > num_tweets:
                break
            attributes_container.append(tweet.rawContent)
        return [Document(text=attributes_container, extra_info={"username": username})]

load_data #

load_data(username: str, num_tweets: int) -> List[Document]

从twitter个人资料加载数据。

Parameters:

Name Type Description Default
username str

Twitter用户名。

required
num_tweets int

需要获取的推文数量。

required

Returns:

Type Description
List[Document]

List[Document]: 文档列表。

Source code in llama_index/readers/snscrape_twitter/base.py
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
    def load_data(self, username: str, num_tweets: int) -> List[Document]:
        """从twitter个人资料加载数据。

Args:
    username (str): Twitter用户名。
    num_tweets (int): 需要获取的推文数量。

Returns:
    List[Document]: 文档列表。
"""
        import snscrape.modules.twitter as sntwitter

        attributes_container = []
        for i, tweet in enumerate(
            sntwitter.TwitterSearchScraper(f"from:{username}").get_items()
        ):
            if i > num_tweets:
                break
            attributes_container.append(tweet.rawContent)
        return [Document(text=attributes_container, extra_info={"username": username})]