在doc2vec中获取不可见段落的段落表示
问题描述:
我想将genism doc2vec模型用于分类任务。 但是,似乎doc2vec的gensim实现需要在训练模型之前查看所有文档(训练和测试)以构建词汇表。否则,如果您想要获取构建词汇表时不存在的文档的文档向量,就会得到keyerror。我想知道我的理解是否正确!实际上,在培训时没有人获得测试数据。在doc2vec中获取不可见段落的段落表示
有什么方法可以在测试时更新词汇表以便能够获取测试文档的文档表示?
答
您只能查找在培训期间呈现的材料的学习文档向量。
但是,有一种方法infer_vector()
它可以提供一个新的标记文档到冻结,训练有素的模型,并返回一个“最适合”的向量。它接近在培训期间新文件可用时将返回的内容。参见:
https://radimrehurek.com/gensim/models/doc2vec.html#gensim.models.doc2vec.Doc2Vec.infer_vector