评分
通过 scoring
参数启用评分支持。
这个评分实例可以根据设置实现两个目的。
一种用途是构建稀疏/关键词索引。当 terms
参数设置为 True
时,会发生这种情况。
另一种用途是词向量术语加权。此功能自初始版本以来就已可用,但如今并不那么常见。
以下涵盖了可用的选项。
方法
method: bm25|tfidf|sif|custom
设置评分方法。通过将此参数设置为完全可解析的类字符串来添加自定义评分。
术语
terms: boolean|dict
为评分实例启用术语频率稀疏数组。这是稀疏关键词索引的后端。
支持带有 cachelimit
和 cutoff
参数的 dict
。
cachelimit
是在刷新到磁盘之前用于索引的最大驻留内存量(以字节为单位)。此参数为 int
类型。
cutoff
用于在搜索期间确定构成常见术语的条件。此参数为 float
类型,例如 0.1 表示 10% 的截止值。
当 terms
设置为 True
时,将使用 cachelimit
和 cutoff
的默认参数。通常,这些默认值已足够。
归一化
normalize: boolean
启用归一化评分(范围从 0 到 1)。启用后,将使用索引中的统计数据来计算归一化分数。