示例
请参阅以下涵盖txtai的全面示例笔记本和应用程序系列。
语义搜索
构建语义/相似性/向量/神经搜索应用程序。
笔记本 | 描述 | |
---|---|---|
介绍txtai ▶️ | txtai提供的功能概述 | |
使用Hugging Face数据集构建嵌入索引 | 索引和搜索Hugging Face数据集 | |
从数据源构建嵌入索引 | 使用词嵌入索引和搜索数据源 | |
向Elasticsearch添加语义搜索 | 向现有搜索系统添加语义搜索 | |
使用图像进行相似性搜索 | 将图像和文本嵌入同一空间进行搜索 | |
自定义嵌入SQL函数 | 向嵌入SQL添加用户定义函数 | |
模型可解释性 | 语义搜索的可解释性 | |
查询翻译 | 使用查询翻译进行领域特定的自然语言查询 | |
构建QA数据库 | 使用语义搜索进行问题匹配 | |
语义图 | 探索主题、数据连接性并运行网络分析 | |
使用BM25进行主题建模 | 基于BM25索引的主题建模 |
LLM
LLM链、检索增强生成(RAG)、与您的数据聊天、与大型语言模型(LLMs)接口的管道和工作流。
笔记本 | 描述 | |
---|---|---|
基于提示的大语言模型驱动搜索 | 嵌入引导和提示驱动的大语言模型(LLMs)搜索 | |
提示模板与任务链 | 构建模型提示并通过工作流连接任务 | |
使用txtai构建RAG管道 | 检索增强生成的指南,包括如何创建引用 | |
集成LLM框架 | 集成llama.cpp、LiteLLM和自定义生成框架 | |
使用语义图和RAG生成知识 | 使用语义图和RAG进行知识探索和发现 | |
使用LLM构建知识图谱 | 使用LLM驱动的实体提取构建知识图谱 | |
使用图路径遍历的高级RAG | 图路径遍历以收集复杂数据集用于高级RAG | |
使用引导生成的高级RAG | 检索增强和引导生成 | |
使用llama.cpp和外部API服务的RAG | 使用额外的向量和LLM框架的RAG | |
txtai如何实现RAG | 创建RAG流程、API服务和Docker实例 | |
语音到语音的RAG ▶️ | 使用RAG的完整语音到语音工作流程 |
管道
使用语言模型支持的管道转换数据。
笔记本 | 描述 | |
---|---|---|
使用txtai进行抽取式问答 | 使用txtai进行抽取式问答的介绍 | |
使用Elasticsearch进行抽取式问答 | 使用Elasticsearch运行抽取式问答查询 | |
使用抽取式问答构建结构化数据 | 使用抽取式问答构建结构化数据集 | |
使用零样本分类应用标签 | 使用零样本学习进行标签、分类和主题建模 | |
构建抽象文本摘要 | 运行抽象文本摘要 | |
从文档中提取文本 | 从PDF、Office、HTML等中提取文本 | |
文本到语音生成 | 从文本生成语音 | |
将音频转录为文本 | 将音频文件转换为文本 | |
在语言之间翻译文本 | 简化机器翻译和语言检测 | |
生成图像描述并检测对象 | 为图像生成描述和对象检测 | |
近似重复图像检测 | 识别重复和近似重复的图像 |
工作流
高效地大规模处理数据。
笔记本 | 描述 | |
---|---|---|
运行管道工作流 ▶️ | 简单而强大的结构,以高效处理数据 | |
使用可组合工作流转换表格数据 | 转换、索引和搜索表格数据 | |
张量工作流 | 高效处理大型张量数组 | |
实体提取工作流 | 识别实体/标签组合 | |
工作流调度 | 使用 cron 表达式调度工作流 | |
使用工作流推送通知 | 使用工作流生成并推送通知 | |
一图胜千言 | 使用 DALL-E mini 生成网页摘要图像 | |
在原生代码中运行 txtai | 使用 Python C API 在原生代码中执行工作流 | |
生成音频 | 使用生成音频工作流进行故事讲述 |
模型训练
训练 NLP 模型。
笔记本 | 描述 | |
---|---|---|
训练文本标签器 | 构建文本序列分类模型 | |
无标签训练 | 使用零样本分类器训练新模型 | |
训练问答模型 | 构建和微调问答模型 | |
从头开始训练语言模型 | 构建新的语言模型 | |
使用 ONNX 导出和运行模型 | 使用 ONNX 导出模型,在 JavaScript、Java 和 Rust 中本地运行 | |
导出和运行其他机器学习模型 | 从 scikit-learn、PyTorch 等导出和运行模型 |
API
运行分布式 txtai,与 API 和云端点集成。
笔记本 | 描述 | |
---|---|---|
API 画廊 | 在 JavaScript、Java、Rust 和 Go 中使用 txtai | |
分布式嵌入集群 | 将嵌入索引分布在多个数据节点上 | |
云端嵌入 | 从 Hugging Face Hub 加载并使用嵌入索引 | |
自定义 API 端点 | 通过自定义端点扩展 API | |
API 授权与认证 | 为 API 添加授权、认证和中件间依赖 |
架构
项目架构、数据格式、外部集成、生产规模、基准测试和性能。
笔记本 | 描述 | |
---|---|---|
txtai 索引剖析 | 深入了解 txtai 嵌入索引背后的文件格式 | |
嵌入组件 | 通过向量、SQL 和评分组件实现可组合搜索 | |
定制你自己的嵌入数据库 | 将向量索引与关系数据库结合的方法 | |
在 Python 中构建高效的稀疏关键词索引 | 快速且准确的稀疏关键词索引 | |
混合搜索的好处 | 通过语义和关键词搜索的结合提高准确性 | |
外部数据库集成 | 在 PostgreSQL、MariaDB、MySQL 等中存储元数据 | |
关于向量量化的全部 | 标量和乘积量化方法的基准测试 | |
外部向量化 | 使用预计算的嵌入数据集和API进行向量化 | |
将txtai与Postgres集成 | 在Postgres中持久化内容、向量和图数据 | |
开放数据访问的嵌入索引格式 | 平台和编程语言无关的数据存储与txtai |
发布
主要版本中新增的功能。
Notebook | 描述 | |
---|---|---|
txtai 4.0的新功能 | 内容存储、SQL、对象存储、重新索引和压缩索引 | |
txtai 6.0的新功能 | 嵌入的稀疏、混合和子索引,LLM改进 | |
txtai 7.0的新功能 | 语义图2.0、LoRA/QLoRA训练和二进制API支持 |
应用
一系列使用txtai的示例应用。还提供了Hugging Face Spaces上的托管版本链接(如果有)。
应用 | 描述 | |
---|---|---|
基本相似性搜索 | 基本相似性搜索示例。数据来自最初的txtai演示。 | 🤗 |
棒球统计 | 使用向量搜索匹配历史棒球球员统计数据。 | 🤗 |
基准测试 | 计算BEIR数据集的性能指标。 | 仅本地运行 |
书籍搜索 | 书籍相似性搜索应用。索引书籍描述并使用自然语言语句进行查询。 | 仅本地运行 |
图像搜索 | 图像相似性搜索应用。索引图像目录并运行搜索以识别与输入查询相似的图像。 | 🤗 |
检索增强生成 | 使用txtai嵌入数据库的RAG。提出问题并从受上下文约束的LLM中获取答案。 | 仅本地运行 |
总结文章 | 总结文章。从网页中提取文本并构建摘要的工作流程。 | 🤗 |
维基搜索 | 维基百科搜索应用。查询维基百科API并总结最佳结果。 | 🤗 |
工作流构建器 | 构建和执行txtai工作流。将摘要、文本提取、转录、翻译和相似性搜索管道连接在一起,运行统一的工作流。 | 🤗 |