文本挖掘和机器学习

问题描述：

我有一个数据集的单词和文本，我想使集群（通过K均值）或任何其他无监督/监督学习方法来区分单词，例如，单词'约翰'将被分类作为一个名称（并将与其他人的名字聚集在一起），'巴西'作为一个地方等等。有没有我可以用来解决问题的模型。我听说过的n-gram，但我不知道如何绘制在X，Y情节或等
P.S的n元语法的概率，如果你有这将是美妙的文本挖掘和机器学习

如果你只关心“名称”和“地点”，你应该寻找命名实体解决方案。否则，您可能希望找到/开发标签数据（包含您关心的标签）的良好来源，并根据该标签学习分类器。 – greeness

您正在描述*监督*任务，分类。 –

我想对数据进行聚类，然后制定决策边界，以便能够近似字类型（群集将最终标记为类） – DavidOooO

答

如何word2vec和嵌入物的例子？
https://deeplearning4j.org/word2vec

如果您没有预定义的类，则word2vec是一个很好的解决方案。这里你是tensorflow中的解决方案https://www.tensorflow.org/versions/r0.11/tutorials/word2vec/index.html你可以用矢量的形式表示单词，然后使用例如余弦距离做群集。如果你有预定义的课程，那么你必须使用监督学习。 – Rob

文本挖掘和机器学习

相关推荐