语言检测
问题描述:
答
我不确定这是否会对Java库有帮助。但是我发现它非常酷,因为它能够从给定的文本中检测大约50种语言,并且具有相当好的精确度。您可能希望看看它,因为它是开源的,如果您的应用程序只需要用C++编写,您可以用C++重写代码并将其返回给开源社区。
这里是链接一样:
http://code.google.com/p/language-detection/
注:它使用了Apache的Nutch和提卡库进行分析。
答
您可能想要阅读我的论文The WiLI benchmark dataset for written language identification并尝试lidtk
。
TL; DR:试一试CLD-2。