Skip to content

评分

通过 scoring 参数启用评分支持。

这个评分实例可以根据设置实现两个目的。

一种用途是构建稀疏/关键词索引。当 terms 参数设置为 True 时,会发生这种情况。

另一种用途是词向量术语加权。此功能自初始版本以来就已可用,但如今并不那么常见。

以下涵盖了可用的选项。

方法

method: bm25|tfidf|sif|custom

设置评分方法。通过将此参数设置为完全可解析的类字符串来添加自定义评分。

术语

terms: boolean|dict

为评分实例启用术语频率稀疏数组。这是稀疏关键词索引的后端。

支持带有 cachelimitcutoff 参数的 dict

cachelimit 是在刷新到磁盘之前用于索引的最大驻留内存量(以字节为单位)。此参数为 int 类型。

cutoff 用于在搜索期间确定构成常见术语的条件。此参数为 float 类型,例如 0.1 表示 10% 的截止值。

terms 设置为 True 时,将使用 cachelimitcutoff 的默认参数。通常,这些默认值已足够。

归一化

normalize: boolean

启用归一化评分(范围从 0 到 1)。启用后,将使用索引中的统计数据来计算归一化分数。