需要一个分析器,可以按点分割单词并保留数字

问题描述:

我想按点和备用数字分割单词,例如: “google.com 123”=> [“google”,“com”,“123” ]需要一个分析器,可以按点分割单词并保留数字

标准分析器不能由点分开单词: “google.com 123”=> [ “google.com”, “123”]

简单分析器过滤器出来的数字: “谷歌.com 123“=> [”google“,”com“]

谢谢。

如果您知道要将哪些字符拆分为令牌,则可以使用pattern tokenizer。您可以指定一个正则表达式来匹配所有'分隔符'。

+0

我不完全知道字符集,图案标记器可能有点复杂。现在我替换'。'与'。 '在分词之前,并替换'。 '与'。'在视图层。 – CreateChen

+0

@CreateChen模式标记可能太复杂了。如果只替换点,可能需要查看[charfilter](https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-pattern-replace-charfilter.html )。这是一个预处理单元,您可以在其中进行替换。那么它至少都会成为ES的一部分,而不是整个代码。 – Slomo