arXiv
LangChain 实现了自然语言处理领域的最新研究。
这个页面包含了 LangChain 文档、API 参考和模板中引用的 arXiv
论文。
概要
密集检索与检索粒度:我们应该使用什么检索粒度?
- arXiv id: 2312.06648v2
- 标题: 密集检索与检索粒度:我们应该使用什么检索粒度?
- 作者: 陈彤, 王宏伟, 陈思豪, 等
- 发布日期: 2023-12-11
- URL: http://arxiv.org/abs/2312.06648v2
- LangChain:
- 模板: propositional-retrieval摘要: 密集检索已成为在开放领域自然语言处理任务中获取相关上下文或世界知识的重要方法。当我们在推理时使用学习到的密集检索器对检索语料库进行检索时,一个经常被忽视的设计选择是语料库被索引的检索单元,例如文档、段落或句子。我们发现,检索单元的选择显著影响了检索和下游任务的性能。与使用段落或句子的典型方法不同,我们引入了一种新颖的检索单元。 命题,用于密集检索。命题被定义为文本中的原子表达式,每个命题都包含一个独特的事实,并以简洁、自包含的自然语言格式呈现。我们对不同检索粒度进行了实证比较。我们的结果显示,基于命题的检索在密集检索中明显优于传统的段落或基于句子的方法。此外,通过命题进行检索还增强了下游问答任务的性能,因为检索到的文本更加浓缩,包含与问题相关的信息,减少了对冗长输入标记的需求,并最小化了包含多余、无关信息的情况。
信息链:增强检索增强语言模型的鲁棒性
- arXiv id: 2311.09210v1
- 标题: 信息链:增强检索增强语言模型的鲁棒性
- 作者: 于文浩,张宏明,潘晓曼等
- 发表日期: 2023年11月15日
- URL: http://arxiv.org/abs/2311.09210v1
- LangChain:
- 模板: chain-of-note-wiki摘要: 检索增强语言模型(RALMs)在提升大型语言模型能力方面取得了实质性进展,尤其在减少利用外部知识源减少事实幻觉方面。然而,检索到的信息可靠性并不总是有保障的。检索到无关数据可能导致错误的响应,甚至可能导致模型忽视其固有知识,即使它具有足够的信息来回答查询。此外,标准的RALMs通常难以评估自己是否具有足够的知识,无论是内在的还是检索到的,以提供准确的答案。在知识不足的情况下,这些系统在回答无法获得的问题时理想情况下应该回应“未知”。为了应对这些挑战,我们引入了Chain-of-Noting(CoN),这是一种旨在提高RALMs在面对嘈杂、无关文档和处理未知情况时的鲁棒性的新方法。CoN的核心思想是为检索到的文档生成顺序阅读注释,从而对其与给定问题的相关性进行彻底评估,并将这些信息整合到最终答案中。我们利用ChatGPT为CoN创建训练数据,随后在LLaMa-27B模型上进行训练。我们在四个开放域问答基准上的实验表明,配备CoN的RALMs明显优于标准RALMs。值得注意的是,CoN在完全嘈杂的检索文档中的EM分数平均提高了+7.9,在超出预训练知识范围的实时问题的拒绝率方面提高了+10.5。
退一步:通过抽象唤起大型语言模型中的推理
- arXiv id: 2310.06117v2
- 标题: 退一步:通过抽象唤起大型语言模型中的推理
- 作者: 郑怀修史蒂文,Mishra Swaroop,陈欣云等
- 发表日期: 2023年10月9日
- URL: http://arxiv.org/abs/2310.06117v2
- LangChain:
- 模板: stepback-qa-prompting摘要: 我们提出了退一步提示,这是一种简单的提示技术,使LLMs能够进行抽象,从包含具体细节的实例中得出高层概念和第一原则。利用这些概念和原则指导推理,LLMs显著提高了它们在沿着正确的推理路径寻找解决方案的能力。我们使用PaLM-2L、GPT-4和Llama2-70B模型进行了退一步提示的实验,并观察到在各种具有挑战性的推理密集任务上取得了实质性的性能提升,包括STEM、知识问答和多跳推理。例如,退一步提示将PaLM-2L在MMLU(物理和化学)上的表现分别提高了7%和11%,TimeQA提高了27%,MuSiQue提高了7%。
为检索增强大型语言模型重写查询
- arXiv id: 2305.14283v3
- 标题: 为检索增强大型语言模型重写查询
- 作者: 马新北,龚烨云,何鹏程等
- 发表日期: 2023年5月23日
- URL: http://arxiv.org/abs/2305.14283v3
- LangChain:
- 模板: rewrite-retrieve-read摘要: 大型语言模型(LLMs)在检索-阅读流程中扮演着强大的黑盒阅读器角色,在知识密集型任务中取得了显著进展。本文介绍了一个新框架,即重写-检索-阅读,而不是之前的检索-阅读,用于检索增强LLMs。 从查询重写的角度来看,与之前关注调整检索器或阅读器的研究不同,我们的方法关注的是搜索查询本身的调整,因为输入文本和检索所需的知识之间不可避免地存在差距。我们首先提示一个LLM生成查询,然后使用网络搜索引擎检索上下文。此外,为了更好地将查询与冻结模块对齐,我们提出了一个可训练的方案。我们采用一个小型语言模型作为可训练的重写器,以适应黑盒LLM阅读器。重写器通过强化学习使用LLM阅读器的反馈进行训练。我们在下游任务、开放域QA和多项选择QA上进行评估。实验结果表明,性能持续改进,表明我们的框架是有效和可扩展的,并为增强检索的LLM带来了一个新的框架。
大型语言模型引导的思维树
- arXiv id: 2305.08291v1
- 标题: 大型语言模型引导的思维树
- 作者: Jieyi Long
- 发表日期: 2023-05-15
- URL: http://arxiv.org/abs/2305.08291v1
- LangChain:
- API参考: langchain_experimental.tot摘要: 本文介绍了一种名为思维树(ToT)框架的新方法,旨在提高自回归大型语言模型(LLM)的问题解决能力。ToT技术受到人类思维解决复杂推理任务的方法的启发。在这个过程中,人类思维通过类似树状的思维过程来探索解决方案空间,当需要时可以进行回溯。为了将ToT作为软件系统实现,我们为LLM增加了额外的模块,包括提示器代理、检查器模块、记忆模块和ToT控制器。为了解决给定的问题,这些模块与LLM进行多轮对话。记忆模块记录了问题解决过程的对话和状态历史,这使得系统可以回溯到思维过程的先前步骤,并从那里探索其他方向。为了验证所提出的技术的有效性,我们实现了一个基于ToT的数独求解器。实验结果表明,ToT框架可以显著提高数独问题的成功率。我们基于ToT的数独求解器的实现可在GitHub上找到:https://github.com/jieyilong/tree-of-thought-puzzle-solver。
HuggingGPT:在Hugging Face中使用ChatGPT及其伙伴解决AI任务
- arXiv id: 2303.17580v4
- 标题: HuggingGPT:在Hugging Face中使用ChatGPT及其伙伴解决AI任务
- 作者: Yongliang Shen,Kaitao Song,Xu Tan等
- 发表日期: 2023-03-30
- URL: http://arxiv.org/abs/2303.17580v4
- LangChain:
- API参考: langchain_experimental.autonomous_agents摘要: 解决不同领域和模态的复杂AI任务是实现人工通用智能的关键步骤。虽然有许多可用于各种领域和模态的AI模型,但它们无法自主处理复杂的AI任务。考虑到大型语言模型(LLM)在语言理解、生成、交互和推理方面展示出卓越的能力,我们主张LLM可以作为一个控制器来管理现有的AI模型,以解决复杂的AI任务,语言作为赋予其能力的通用接口。基于这一理念,我们提出了HuggingGPT,一个由LLM驱动的代理,利用LLM(如ChatGPT)连接机器学习社区中的各种AI模型(如Hugging Face)来解决AI任务。具体而言,我们使用ChatGPT在接收到用户请求时进行任务规划,根据Hugging Face中可用的功能描述选择模型,使用所选的AI模型执行每个子任务,并根据执行结果进行总结。通过利用ChatGPT的强大语言能力和Hugging Face中丰富的AI模型,HuggingGPT可以处理涵盖不同模态和领域的各种复杂AI任务,并在语言、视觉、语音和其他具有挑战性的任务中取得令人印象深刻的结果,为实现人工通用智能铺平了一条新路。
GPT-4技术报告
- arXiv id: 2303.08774v6
- 标题: GPT-4技术报告
- 作者: OpenAI,Josh Achiam,Steven Adler等
- 发表日期: 2023-03-15
- 链接: http://arxiv.org/abs/2303.08774v6
- LangChain:
- 文档: docs/integrations/vectorstores/mongodb_atlas摘要: 我们报告了 GPT-4 的开发,这是一个大规模的多模态模型,可以接受图像和文本输入,并生成文本输出。虽然在许多现实场景中不如人类,但 GPT-4 在各种专业和学术基准测试中表现出与人类水平相当的性能,包括在模拟的律师资格考试中取得了约前10%的考生分数。GPT-4 是一个基于 Transformer 的模型,经过预训练以预测文档中的下一个标记。后训练对齐过程导致在事实性和符合期望行为方面的性能提高。这个项目的核心组成部分是开发基础设施和优化方法,可以在各种规模上可预测地运行。这使我们能够准确地预测 GPT-4 的某些性能方面,而这些模型的训练计算量不超过 GPT-4 的千分之一。
大型语言模型的水印
- arXiv id: 2301.10226v4
- 标题: 大型语言模型的水印
- 作者: John Kirchenbauer, Jonas Geiping, Yuxin Wen 等
- 发表日期: 2023-01-24
- 链接: http://arxiv.org/abs/2301.10226v4
- LangChain:
- API 参考: langchain_community.llms...OCIModelDeploymentTGI, langchain_community.llms...HuggingFaceTextGenInference, langchain_community.llms...HuggingFaceEndpoint摘要: 大型语言模型的潜在危害可以通过为模型输出添加水印来减轻,即将信号嵌入生成的文本中,这些信号对人类不可见,但可以从短距离的标记中通过算法检测到。我们为专有语言模型提出了一个水印框架。水印可以嵌入到文本质量几乎不受影响,并且可以使用高效的开源算法检测,而无需访问语言模型的 API 或参数。水印的工作原理是在生成单词之前选择一组随机化的“绿色”标记,然后在采样过程中软性地促进绿色标记的使用。我们提出了一个用于检测水印的统计检验方法,得到可解释的 p 值,并推导了一个用于分析水印敏感性的信息论框架。我们使用来自 Open Pretrained Transformer (OPT) 家族的多十亿参数模型测试了水印,并讨论了其稳健性和安全性。
无相关标签的精确零样本稠密检索
- arXiv id: 2212.10496v1
- 标题: 无相关标签的精确零样本稠密检索
- 作者: Luyu Gao, Xueguang Ma, Jimmy Lin 等
- 发表日期: 2022-12-20
- 链接: http://arxiv.org/abs/2212.10496v1
- LangChain:
- API 参考: langchain.chains...HypotheticalDocumentEmbedder
- 模板: hyde摘要: 尽管稠密检索在各种任务和语言中已被证明是有效和高效的,但在没有相关标签的情况下创建有效的完全零样本稠密检索系统仍然很困难。在本文中,我们意识到了零样本学习和编码相关性的困难。相反,我们提出通过假设性文档嵌入(HyDE)来进行转变。给定一个查询,HyDE 首先通过零样本指导一个遵循指令的语言模型(例如 InstructGPT)生成一个假设性文档。该文档捕获了相关性模式,但是虚构的,可能包含错误的细节。然后,一个无监督对比学习的编码器(例如 Contriever)将文档编码为一个嵌入向量。这个向量在语料库嵌入空间中标识一个邻域,在这个邻域中,基于向量相似性检索类似的真实文档。这第二步将生成的文档与实际语料库进行了连接,编码器的稠密瓶颈过滤掉了不正确的
鲁棒且可解释的自然语言论证中的逻辑谬误识别
- arXiv id: 2212.07425v3
- 标题: 鲁棒且可解释的自然语言论证中的逻辑谬误识别
- 作者: Zhivar Sourati, Vishnu Priya Prasanna Venkatesh, Darshan Deshpande, 等
- 发布日期: 2022-12-12
- URL: http://arxiv.org/abs/2212.07425v3
- LangChain:
- API 参考: langchain_experimental.fallacy_removal摘要: 在互联网时代,虚假信息、宣传和有缺陷的论证得到了放大。鉴于数据量的庞大和识别论证规范违规的微妙性,支持内容审核等信息分析任务的可信方法,能够识别逻辑谬误至关重要。在本文中,我们将先前的逻辑谬误理论工作形式化为检测、粗粒度分类和细粒度分类的全面三阶段评估框架。我们针对评估的每个阶段调整现有的评估数据集。我们采用基于原型推理、基于实例的推理和知识注入的三类鲁棒且可解释的方法。这些方法将语言模型与背景知识和可解释机制相结合。此外,我们通过数据增强和课程学习的策略解决了数据稀疏性问题。我们的三阶段框架本地整合了先前任务的数据集和方法,如宣传检测,作为一个全面的评估测试平台。我们对我们的数据集广泛进行评估,重点关注它们的鲁棒性和可解释性。我们的结果揭示了这些方法在不同组件和谬误类别上的优势和劣势,表明谬误识别是一项具有挑战性的任务,可能需要专门形式的推理来捕捉各种类别。我们在 GitHub 上分享我们的开源代码和数据,以支持对逻辑谬误识别的进一步研究。
有效上下文学习的补充解释
- arXiv id: 2211.13892v2
- 标题: 有效上下文学习的补充解释
- 作者: Xi Ye, Srinivasan Iyer, Asli Celikyilmaz, 等
- 发布日期: 2022-11-25
- URL: http://arxiv.org/abs/2211.13892v2
- LangChain:
- API 参考: langchain_core.example_selectors...MaxMarginalRelevanceExampleSelector摘要: 大型语言模型(LLMs)在从提示中学习解释方面表现出了显著的能力,但对于这些解释的确切功能或其有效性的理解仍然有限。本研究旨在更好地理解解释被用于上下文学习的机制。我们首先研究了两个不同因素对带有解释的提示性能的影响:计算跟踪(解决方案的分解方式)和用于表达提示的自然语言。通过在三个受控任务上扰动解释,我们展示了这两个因素都对解释的有效性有所贡献。我们进一步研究了如何形成对解决给定测试查询最大程度有效的解释集。我们发现LLMs可以从解释集的互补性中受益:不同实例展示的多样化推理技能可以带来更好的性能。因此,我们提出了一种基于最大边际相关性的实例选择方法,用于构建既相关又互补的实例集,成功地提高了多个LLMs在三个真实世界任务上的上下文学习性能。
PAL:程序辅助语言模型
- arXiv id: 2211.10435v2
- 标题: PAL:程序辅助语言模型
- 作者: Luyu Gao, Aman Madaan, Shuyan Zhou, 等
- 发布日期: 2022-11-18
- URL: http://arxiv.org/abs/2211.10435v2
- LangChain:
- API 参考: langchain_experimental.pal_chain...PALChain, langchain_experimental.pal_chain摘要: 大型语言模型(LLMs)最近展示了惊人的能力,能够在测试时通过提供少量示例来执行算术和符号推理任务(“few-shot prompting”)。其中很大一部分成功归功于提示方法,如“chain-of-thought”,它利用LLMs来理解问题描述,将其分解为步骤,并解决问题的每个步骤。虽然LLMs似乎擅长这种逐步分解,但即使问题被正确分解,LLMs在解决部分经常会出现逻辑和算术错误。在本文中,我们提出了程序辅助语言模型(PAL):一种新颖的方法,利用LLM来阅读自然语言问题并生成程序作为中间推理步骤,但将解决步骤转移到运行时,如Python解释器。通过PAL,将自然语言问题分解为可运行步骤仍然是LLM的唯一学习任务,而解决则委托给解释器。我们展示了神经LLM和符号解释器在BIG-Bench Hard和其他基准测试中的13个数学、符号和算法推理任务之间的协同作用。在所有这些自然语言推理任务中,使用LLM生成代码并使用Python解释器进行推理比使用更大的模型产生更准确的结果。例如,使用Codex的PAL在数学问题的GSM8K基准测试中实现了最先进的few-shot准确性,超过了使用chain-of-thought的PaLM-540B,top-1绝对值提高了15%。我们的代码和数据可以在 http://reasonwithpal.com/ 上公开获取。
Deep Lake: 用于深度学习的湖屋
- arXiv id: 2209.10785v2
- 标题: Deep Lake: 用于深度学习的湖屋
- 作者: Sasun Hambardzumyan, Abhinav Tuli, Levon Ghukasyan, 等
- 发布日期: 2022-09-22
- URL: http://arxiv.org/abs/2209.10785v2
- LangChain:
- 文档: docs/integrations/providers/activeloop_deeplake摘要: 传统数据湖通过实现时间旅行、运行SQL查询、使用ACID事务摄取数据以及在云存储上可视化PB级数据集,为分析工作贡献了关键的数据基础设施。它们允许组织打破数据孤岛,释放数据驱动的决策制定,提高运营效率并降低成本。然而,随着深度学习的使用增加,传统数据湖并不适用于自然语言处理(NLP)、音频处理、计算机视觉以及涉及非表格数据集的应用。本文介绍了Deep Lake,这是Activeloop开发的用于深度学习应用的开源湖屋。Deep Lake保留了普通数据湖的优点,但有一个关键区别:它以张量的形式存储复杂数据,如图像、视频、注释以及表格数据,并快速通过网络流式传输数据到(a)张量查询语言、(b)浏览器可视化引擎或(c)深度学习框架,而不会牺牲GPU利用率。存储在Deep Lake中的数据集可以从PyTorch、TensorFlow、JAX访问,并与众多MLOps工具集成。
使用蒸馏句子表示进行低资源语言的双语挖掘
- arXiv id: 2205.12654v1
- 标题: 使用蒸馏句子表示进行低资源语言的双语挖掘
- 作者: Kevin Heffernan, Onur Çelebi, Holger Schwenk
- 发布日期: 2022-05-25
- URL: http://arxiv.org/abs/2205.12654v1
- LangChain:
- API 参考: langchain_community.embeddings...LaserEmbeddings摘要: 将多语言表示学习扩展到百种最常见语言以外的语言是具有挑战性的,特别是为了覆盖低资源语言的长尾。一个有前途的方法是训练一对所有多语言模型,能够进行跨语言转移,但这些模型往往容量不足,并且在无关语言之间存在干扰。相反,我们摆脱了这种方法,专注于训练多种语言(家族)特定表示,但最主要的是使所有语言仍然可以进行在相同的表示空间中进行编码。为了实现这一点,我们专注于师生训练,使所有编码器在双语挖掘中相互兼容,并能够快速学习新语言。我们引入了一种新的师生训练方案,结合了监督和自监督训练,使编码器能够利用单语训练数据,在资源匮乏的环境中具有价值。 我们的方法明显优于原始的LASER编码器。我们研究了非常资源匮乏的语言,并处理了50种非洲语言,其中许多语言没有任何其他模型覆盖。对于这些语言,我们训练句子编码器,挖掘双语文本,并通过训练NMT系统验证双语文本。
评估大型语言模型的文本到SQL能力
- arXiv id: 2204.00498v1
- 标题: 评估大型语言模型的文本到SQL能力
- 作者: Nitarshan Rajkumar, Raymond Li, Dzmitry Bahdanau
- 发布日期: 2022-03-15
- URL: http://arxiv.org/abs/2204.00498v1
- LangChain:
- API参考: langchain_community.utilities...SQLDatabase, langchain_community.utilities...SparkSQL摘要: 我们对Codex语言模型的文本到SQL能力进行了实证评估。我们发现,在没有任何微调的情况下,Codex在Spider基准测试中是一个强大的基准;我们还分析了Codex在这种情况下的失败模式。此外,我们在GeoQuery和Scholar基准测试中证明,提供少量领域内示例的提示能够使Codex的表现优于在这些少量示例上进行微调的最先进模型。
本地典型抽样
- arXiv id: 2202.00666v5
- 标题: 本地典型抽样
- 作者: Clara Meister, Tiago Pimentel, Gian Wiher, et al.
- 发布日期: 2022-02-01
- URL: http://arxiv.org/abs/2202.00666v5
- LangChain:
- API参考: langchain_community.llms...HuggingFaceTextGenInference, langchain_community.llms...HuggingFaceEndpoint摘要: 当今的概率语言生成器在产生连贯和流畅的文本方面存在不足,尽管底层模型在标准度量指标(如困惑度)下表现良好。这种差异困扰了语言生成社区多年。在这项工作中,我们认为将自然语言生成抽象为离散随机过程(允许进行信息论分析)可以为概率语言生成器的行为提供新的见解,例如为什么高概率的文本可能会枯燥或重复。人类使用语言作为传递信息的手段,旨在以同时高效和最小化错误的方式进行传递;事实上,心理语言学研究表明,人类在选择字符串中的每个单词时都具有这个潜意识目标。我们正式定义了满足这一标准的字符串集合:每个单词的信息内容接近预期信息内容,即我们模型的条件熵。然后,我们提出了一种简单高效的过程,用于在从概率模型生成时强制执行这个标准,我们称之为本地典型抽样。自动和人工评估表明,与核心和top-k抽样相比,本地典型抽样在质量方面具有竞争力(在抽象摘要和故事生成方面),同时始终减少退化重复。
从自然语言监督中学习可迁移的视觉模型
- arXiv id: 2103.00020v1
- 标题: 从自然语言监督中学习可迁移的视觉模型
- 作者: Alec Radford, Jong Wook Kim, Chris Hallacy, et al.
- 发布日期: 2021-02-26
- URL: http://arxiv.org/abs/2103.00020v1
- LangChain:
- API参考: langchain_experimental.open_clip摘要: 最先进的计算机视觉系统被训练来预测一组固定的预定对象类别。这种受限的监督形式限制了它们的普遍性和可用性,因为需要额外的标记数据来指定任何其他视觉概念。直接从关于图像的原始文本中学习是一个有前途的替代方法,它利用了更广泛的监督来源。我们证明,预测哪个标题与哪个图像相配的简单预训练任务是一种高效且可扩展的学习方法,可以从互联网收集的4亿(图像,文本)对数据集中从头开始学习最先进的图像表示。预训练后,自然语言用于引用学习的视觉概念(或描述新的概念),从而实现模型对下游任务的零-shot转移。我们通过在超过30个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能,涵盖了OCR、视频中的动作识别、地理定位以及许多类型的细粒度对象分类等任务。该模型在大多数任务上都能进行非平凡的转移,并且通常与完全监督的基准模型竞争,而无需进行任何特定于数据集的训练。例如,我们在不需要使用ResNet-50在ImageNet上训练的128万个训练样本中的任何一个的情况下,就能够在零-shot情况下匹配原始ResNet-50的准确率。我们在https://github.com/OpenAI/CLIP 上发布了我们的代码和预训练模型权重。
CTRL:用于可控生成的条件Transformer语言模型
- arXiv id: 1909.05858v2
- 标题: CTRL:用于可控生成的条件Transformer语言模型
- 作者: Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney 等
- 发布日期: 2019-09-11
- URL: http://arxiv.org/abs/1909.05858v2
- LangChain:
- API 参考: langchain_community.llms...HuggingFaceTextGenInference, langchain_community.llms...HuggingFaceEndpoint摘要: 大规模语言模型展示了有前途的文本生成能力,但用户无法轻松控制生成文本的特定方面。我们发布了CTRL,一个拥有16.3亿参数的条件Transformer语言模型,训练以依赖于控制代码来管理风格、内容和任务特定行为。控制代码来源于与原始文本自然共现的结构,保留了无监督学习的优势,同时提供了对文本生成更明确的控制。这些代码还允许CTRL预测在给定序列的情况下训练数据的哪些部分最有可能。这为通过基于模型的源归因方法分析大量数据提供了潜在方法。我们已经在https://github.com/salesforce/ctrl 上发布了多个完整预训练版本的CTRL。
Sentence-BERT:使用Siamese BERT网络的句子嵌入
- arXiv id: 1908.10084v1
- 标题: Sentence-BERT:使用Siamese BERT网络的句子嵌入
- 作者: Nils Reimers, Iryna Gurevych
- 发布日期: 2019-08-27
- URL: http://arxiv.org/abs/1908.10084v1
- LangChain:
- 文档: docs/integrations/text_embedding/sentence_transformers摘要: BERT(Devlin等,2018)和RoBERTa(Liu等,2019)在句对回归任务(如语义文本相似性)上取得了新的最先进性能。然而,这要求将两个句子输入网络,这会导致大量的计算开销:在包含1万个句子的集合中找到最相似的一对需要大约5000万次推理计算(约65小时)使用BERT。BERT的构造使其不适用于语义相似性搜索以及无监督任务(如聚类)。在本文中,我们提出了Sentence-BERT(SBERT),这是对预训练BERT网络的修改,使用孪生和三胞胎网络结构来推导语义上有意义的句子嵌入,可以使用余弦相似度进行比较。这将在保持来自BERT的准确性的同时,将从BERT / RoBERTa中找到最相似的一对的工作量从65小时减少到使用SBERT约5秒,我们评估了SBERT和SRoBERTa在常见STS任务和迁移学习任务上的表现,其中它优于其他最先进的句子嵌入方法。