rl_chain
#
RL(强化学习)链利用Vowpal Wabbit (VW)模型进行带有上下文的强化学习,目的是在调用LLM之前修改提示。
[Vowpal Wabbit](https://vowpalwabbit.org/) 提供了快速、高效且灵活的在线机器学习技术,适用于强化学习、监督学习等。
类
自动选择评分器。 |
|
|
表示嵌入器的抽象类。 |
|
表示事件的抽象类。 |
|
表示策略的抽象类。 |
利用Vowpal Wabbit (VW)模型作为强化学习的学习策略的链。 |
|
|
利用Vowpal Wabbit (VW)模型作为学习策略的强化学习链。 |
表示所选项目的抽象类。 |
|
用于评分所选选择或llm响应的抽象类。 |
|
|
Vowpal Wabbit 策略。 |
指标跟踪器平均值。 |
|
指标跟踪器滚动窗口。 |
|
模型仓库。 |
|
利用Vowpal Wabbit (VW)模型进行上下文强化学习的链,目标是在LLM调用之前修改提示。 |
|
PickBest链的事件类。 |
|
将BasedOn和ToSelectFrom输入嵌入到学习策略可以使用的格式中。 |
|
PickBest链的随机策略。 |
|
PickBest链的选择类。 |
|
Vowpal Wabbit 自定义日志记录器。 |
函数
|
包装一个值以指示它应该基于。 |
|
包装一个值以指示它应该被嵌入。 |
|
包装一个值以指示它应该被嵌入并保留。 |
|
包装一个值以指示应该从中选择。 |
从输入中获取BasedOn和ToSelectFrom。 |
|
|
将输入字符串解析为示例列表。 |
为自动嵌入准备输入。 |
|
|
使用SentenceTransformer模型(或具有encode函数的模型)嵌入动作或上下文。 |
|
嵌入一个字典项。 |
|
嵌入一个列表项。 |
|
嵌入字符串或_Embed对象。 |
检查一个项目是否为字符串。 |
|
|
将嵌入转换为字符串。 |