Skip to content

示例

示例 示例

请参阅以下涵盖txtai的全面示例笔记本和应用程序系列。

语义搜索

构建语义/相似性/向量/神经搜索应用程序。

笔记本 描述
介绍txtai ▶️ txtai提供的功能概述 在Colab中打开
使用Hugging Face数据集构建嵌入索引 索引和搜索Hugging Face数据集 在Colab中打开
从数据源构建嵌入索引 使用词嵌入索引和搜索数据源 在Colab中打开
向Elasticsearch添加语义搜索 向现有搜索系统添加语义搜索 在Colab中打开
使用图像进行相似性搜索 将图像和文本嵌入同一空间进行搜索 在Colab中打开
自定义嵌入SQL函数 向嵌入SQL添加用户定义函数 在Colab中打开
模型可解释性 语义搜索的可解释性 在Colab中打开
查询翻译 使用查询翻译进行领域特定的自然语言查询 在Colab中打开
构建QA数据库 使用语义搜索进行问题匹配 在Colab中打开
语义图 探索主题、数据连接性并运行网络分析 在Colab中打开
使用BM25进行主题建模 基于BM25索引的主题建模 在Colab中打开

LLM

LLM链、检索增强生成(RAG)、与您的数据聊天、与大型语言模型(LLMs)接口的管道和工作流。

笔记本 描述
基于提示的大语言模型驱动搜索 嵌入引导和提示驱动的大语言模型(LLMs)搜索 在Colab中打开
提示模板与任务链 构建模型提示并通过工作流连接任务 在Colab中打开
使用txtai构建RAG管道 检索增强生成的指南,包括如何创建引用 在Colab中打开
集成LLM框架 集成llama.cpp、LiteLLM和自定义生成框架 在Colab中打开
使用语义图和RAG生成知识 使用语义图和RAG进行知识探索和发现 在Colab中打开
使用LLM构建知识图谱 使用LLM驱动的实体提取构建知识图谱 在Colab中打开
使用图路径遍历的高级RAG 图路径遍历以收集复杂数据集用于高级RAG 在Colab中打开
使用引导生成的高级RAG 检索增强和引导生成 在Colab中打开
使用llama.cpp和外部API服务的RAG 使用额外的向量和LLM框架的RAG 在Colab中打开
txtai如何实现RAG 创建RAG流程、API服务和Docker实例 在Colab中打开
语音到语音的RAG ▶️ 使用RAG的完整语音到语音工作流程 在Colab中打开

管道

使用语言模型支持的管道转换数据。

笔记本 描述
使用txtai进行抽取式问答 使用txtai进行抽取式问答的介绍 在Colab中打开
使用Elasticsearch进行抽取式问答 使用Elasticsearch运行抽取式问答查询 在Colab中打开
使用抽取式问答构建结构化数据 使用抽取式问答构建结构化数据集 在Colab中打开
使用零样本分类应用标签 使用零样本学习进行标签、分类和主题建模 在Colab中打开
构建抽象文本摘要 运行抽象文本摘要 在Colab中打开
从文档中提取文本 从PDF、Office、HTML等中提取文本 在Colab中打开
文本到语音生成 从文本生成语音 在Colab中打开
将音频转录为文本 将音频文件转换为文本 在Colab中打开
在语言之间翻译文本 简化机器翻译和语言检测 在Colab中打开
生成图像描述并检测对象 为图像生成描述和对象检测 在Colab中打开
近似重复图像检测 识别重复和近似重复的图像 在Colab中打开

工作流

高效地大规模处理数据。

笔记本 描述
运行管道工作流 ▶️ 简单而强大的结构,以高效处理数据 在Colab中打开
使用可组合工作流转换表格数据 转换、索引和搜索表格数据 在Colab中打开
张量工作流 高效处理大型张量数组 在 Colab 中打开
实体提取工作流 识别实体/标签组合 在 Colab 中打开
工作流调度 使用 cron 表达式调度工作流 在 Colab 中打开
使用工作流推送通知 使用工作流生成并推送通知 在 Colab 中打开
一图胜千言 使用 DALL-E mini 生成网页摘要图像 在 Colab 中打开
在原生代码中运行 txtai 使用 Python C API 在原生代码中执行工作流 在 Colab 中打开
生成音频 使用生成音频工作流进行故事讲述 在 Colab 中打开

模型训练

训练 NLP 模型。

笔记本 描述
训练文本标签器 构建文本序列分类模型 在 Colab 中打开
无标签训练 使用零样本分类器训练新模型 在 Colab 中打开
训练问答模型 构建和微调问答模型 在 Colab 中打开
从头开始训练语言模型 构建新的语言模型 在 Colab 中打开
使用 ONNX 导出和运行模型 使用 ONNX 导出模型,在 JavaScript、Java 和 Rust 中本地运行 在 Colab 中打开
导出和运行其他机器学习模型 从 scikit-learn、PyTorch 等导出和运行模型 在 Colab 中打开

API

运行分布式 txtai,与 API 和云端点集成。

笔记本 描述
API 画廊 在 JavaScript、Java、Rust 和 Go 中使用 txtai 在 Colab 中打开
分布式嵌入集群 将嵌入索引分布在多个数据节点上 在 Colab 中打开
云端嵌入 从 Hugging Face Hub 加载并使用嵌入索引 在 Colab 中打开
自定义 API 端点 通过自定义端点扩展 API 在 Colab 中打开
API 授权与认证 为 API 添加授权、认证和中件间依赖 在 Colab 中打开

架构

项目架构、数据格式、外部集成、生产规模、基准测试和性能。

笔记本 描述
txtai 索引剖析 深入了解 txtai 嵌入索引背后的文件格式 在 Colab 中打开
嵌入组件 通过向量、SQL 和评分组件实现可组合搜索 在 Colab 中打开
定制你自己的嵌入数据库 将向量索引与关系数据库结合的方法 在 Colab 中打开
在 Python 中构建高效的稀疏关键词索引 快速且准确的稀疏关键词索引 在 Colab 中打开
混合搜索的好处 通过语义和关键词搜索的结合提高准确性 在 Colab 中打开
外部数据库集成 在 PostgreSQL、MariaDB、MySQL 等中存储元数据 在 Colab 中打开
关于向量量化的全部 标量和乘积量化方法的基准测试 在 Colab 中打开
外部向量化 使用预计算的嵌入数据集和API进行向量化 在Colab中打开
将txtai与Postgres集成 在Postgres中持久化内容、向量和图数据 在Colab中打开
开放数据访问的嵌入索引格式 平台和编程语言无关的数据存储与txtai 在Colab中打开

发布

主要版本中新增的功能。

Notebook 描述
txtai 4.0的新功能 内容存储、SQL、对象存储、重新索引和压缩索引 在Colab中打开
txtai 6.0的新功能 嵌入的稀疏、混合和子索引,LLM改进 在Colab中打开
txtai 7.0的新功能 语义图2.0、LoRA/QLoRA训练和二进制API支持 在Colab中打开

应用

一系列使用txtai的示例应用。还提供了Hugging Face Spaces上的托管版本链接(如果有)。

应用 描述
基本相似性搜索 基本相似性搜索示例。数据来自最初的txtai演示。 🤗
棒球统计 使用向量搜索匹配历史棒球球员统计数据。 🤗
基准测试 计算BEIR数据集的性能指标。 仅本地运行
书籍搜索 书籍相似性搜索应用。索引书籍描述并使用自然语言语句进行查询。 仅本地运行
图像搜索 图像相似性搜索应用。索引图像目录并运行搜索以识别与输入查询相似的图像。 🤗
检索增强生成 使用txtai嵌入数据库的RAG。提出问题并从受上下文约束的LLM中获取答案。 仅本地运行
总结文章 总结文章。从网页中提取文本并构建摘要的工作流程。 🤗
维基搜索 维基百科搜索应用。查询维基百科API并总结最佳结果。 🤗
工作流构建器 构建和执行txtai工作流。将摘要、文本提取、转录、翻译和相似性搜索管道连接在一起,运行统一的工作流。 🤗