如何将文档映射到控件

问题描述:

我有约500个文档(1页)已被映射到约3000个短段落(1-2个句子)。这些段落描述了文件如何被审查。每个文档可以并通常映射到几个段落。如何将文档映射到控件

例如,如果文档是关于某个生产流程要遵循的程序,则这些段落是关于谁需要审阅文档,需要审核哪些内容,审核的目标是什么,审核的频率应该这样做

我想开发一个模型,可以建议从给定的文件可能的段落。我选择按照以下的方法:

准备数据(记号化,删除停用词,lemmatize等) 考虑所有段落作为一个单一的输出,也就是将它们连接起来 使用序列序列模型(tensorflow编码器/解码器RNN模型)将文档映射到连接段落 使用输出的序列找到最接近的段落作为建议 由于样本量较小,因此步骤3中的模型不会收敛。

我在尝试改进建模方法(例如,可以将文档中的每个句子映射到每个段落以增加样本大小)或查找替代方法。什么是这种问题的典型模型?

听起来像处理这个问题最简单的方法是为每个段落创建一个二进制分类器,以说明它是否适用于输入文档。

如果您想要查找有关此类问题的更多详细信息,您所处理的内容称为多标签分类问题。一个常见的例子就是根据文本猜测Stack Overflow问题的标签。除非段落和文档之间存在一些密切的文本关系(如重叠的文字使用),否则最好将您的段落视为标签,而不是在模型中使用它们的内容。另外,考虑到您拥有的数据量,我会从比朴素贝叶斯或SVM等神经网络更基本的东西开始,验证该方法是否可行。既然你已经在Python工作了,Gensim有一个variety of multi-label classifiers

+0

你的建议很有用。我相信可以从“推荐系统”的角度来解决这个问题。我想知道如何衡量大型文件本身和小段落之间的相似性。原则上,我可以使用文本相似性度量而不是依赖现有的映射。但我不完全确定。 – teucer