文本挖掘和机器学习
问题描述:
我有一个数据集的单词和文本,我想使集群(通过K均值)或任何其他无监督/监督学习方法来区分单词,例如,单词'约翰'将被分类作为一个名称(并将与其他人的名字聚集在一起),'巴西'作为一个地方等等。 有没有我可以用来解决问题的模型。 我听说过的n-gram,但我不知道如何绘制在X,Y情节或等
P.S的n元语法的概率,如果你有这将是美妙的文本挖掘和机器学习
答
如何word2vec和嵌入物的例子?
https://deeplearning4j.org/word2vec
+0
如果您没有预定义的类,则word2vec是一个很好的解决方案。这里你是tensorflow中的解决方案https://www.tensorflow.org/versions/r0.11/tutorials/word2vec/index.html你可以用矢量的形式表示单词,然后使用例如余弦距离做群集。如果你有预定义的课程,那么你必须使用监督学习。 – Rob
如果你只关心“名称”和“地点”,你应该寻找命名实体解决方案。否则,您可能希望找到/开发标签数据(包含您关心的标签)的良好来源,并根据该标签学习分类器。 – greeness
您正在描述*监督*任务,分类。 –
我想对数据进行聚类,然后制定决策边界,以便能够近似字类型(群集将最终标记为类) – DavidOooO