释义数据¶
在我们论文 Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation 中,我们展示了释义数据与 MultipleNegativesRankingLoss
的结合是一个强大的组合,用于学习句子嵌入模型。更多关于此损失函数的信息,请阅读 NLI > MultipleNegativesRankingLoss。
training.py 脚本从 数据集概览 加载各种数据集。我们通过从各自数据集中采样示例来构建批次。到目前为止,示例在数据集之间没有混合,即一个批次仅包含来自单个数据集的示例。
由于数据集的大小差异很大,我们执行 轮循采样 以使用相同数量的批次从每个数据集进行训练。
预训练模型¶
查看 预训练模型 以查看所有在这些释义数据集上训练的模型。
paraphrase-MiniLM-L12-v2 - 在以下数据集上训练:AllNLI, sentence-compression, SimpleWiki, altlex, msmarco-triplets, quora_duplicates, coco_captions,flickr30k_captions, yahoo_answers_title_question, S2ORC_citation_pairs, stackexchange_duplicate_questions, wiki-atomic-edits
paraphrase-distilroberta-base-v2 - 在以下数据集上训练:AllNLI, sentence-compression, SimpleWiki, altlex, msmarco-triplets, quora_duplicates, coco_captions,flickr30k_captions, yahoo_answers_title_question, S2ORC_citation_pairs, stackexchange_duplicate_questions, wiki-atomic-edits
paraphrase-distilroberta-base-v1 - 在以下数据集上训练:AllNLI, sentence-compression, SimpleWiki, altlex, quora_duplicates, wiki-atomic-edits, wiki-split
paraphrase-xlm-r-multilingual-v1 - paraphrase-distilroberta-base-v1 的多语言版本,使用50多种语言的平行数据进行训练。(教师模型:paraphrase-distilroberta-base-v1,学生模型:xlm-r-base)