ICUTransformFilter在SOLR

问题描述：

我得到下面的输出后，我在SOLRICUTransformFilter在SOLR

สวัสดี配置ICUTransformFilter转化为s̄wạs̄dī 无法理解也将其转换为哪个脚本？我在架构配置看起来像下面

<analyzer type="index"> 
    <tokenizer class="solr.ICUTokenizerFactory"/> 
    <filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" /> 
    <filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" /> 
    <filter class="solr.BeiderMorseFilterFactory" /> 
</analyzer>

它说，泰国拉丁，但是当我使用谷歌翻译器将其转换为“奴”

答

这似乎是从my Thai example复制，其中的序列分析仪已被解释。该配置用于搜索“sawadika”之类的内容，并获取包含原始单词的实际泰语文本，该单词听起来像是（女性发起的）问候语。

你似乎在翻译（泰语到拼音匹配/关闭拉丁语）时会混淆翻译（泰语到谷歌翻译中的英语）。音译就是这里发生的事情（实际上Google也是这样）。总之，在第一台分析仪之后，你仍然有色调标记，试图显示泰语所具有的升/降等音调。第二个分析仪应该将它们移除以得到swasdi。最后的分析器会做一些语音扩展来匹配其他替代拼写。

有没有一种方法或例子，其中ICUTokenizer可以作为java程序运行 – user2478236

http://stackoverflow.com/questions/43377330/tokenize-thai-sentence-with-icutokenizer-java/43450726#43450726 – user2478236

ICUTransformFilter在SOLR

相关推荐