ICUTransformFilter在SOLR
问题描述:
我得到下面的输出后,我在SOLRICUTransformFilter在SOLR
สวัสดี配置ICUTransformFilter转化为s̄wạs̄dī 无法理解也将其转换为哪个脚本?我在架构配置看起来像下面
<analyzer type="index">
<tokenizer class="solr.ICUTokenizerFactory"/>
<filter class="solr.ICUTransformFilterFactory" id="Thai-Latin" />
<filter class="solr.ICUTransformFilterFactory" id="NFD; [:Nonspacing Mark:] Remove; NFC" />
<filter class="solr.BeiderMorseFilterFactory" />
</analyzer>
答
这似乎是从my Thai example复制,其中的序列分析仪已被解释。该配置用于搜索“sawadika”之类的内容,并获取包含原始单词的实际泰语文本,该单词听起来像是(女性发起的)问候语。
你似乎在翻译(泰语到拼音匹配/关闭拉丁语)时会混淆翻译(泰语到谷歌翻译中的英语)。音译就是这里发生的事情(实际上Google也是这样)。总之,在第一台分析仪之后,你仍然有色调标记,试图显示泰语所具有的升/降等音调。第二个分析仪应该将它们移除以得到swasdi。最后的分析器会做一些语音扩展来匹配其他替代拼写。
有没有一种方法或例子,其中ICUTokenizer可以作为java程序运行 – user2478236
http://stackoverflow.com/questions/43377330/tokenize-thai-sentence-with-icutokenizer-java/43450726#43450726 – user2478236