如何增强溶胶.StandardTokenizerFactory 来生成几个额外的令牌

我有一个Solr 3.6部署。目前我正在使用 solr。StandardTokenizerFactory 用于在索引期间分析令牌。

以下是演示我的问题的两个示例流：

示例 1：bob,a-z,000123,xyz生成令牌... |bob|a-z|000123|xyz|......这很好。

示例 2：bob,a-6,000123,xyz生成令牌... |bob|a-6,000123|xyz|......这不好，因为用户无法按"000123"进行搜索。

似乎StandardTokenizerFactory以不同的方式对待"6,000"(比如它是货币或产品编号，也许？(，所以它不会在逗号处标记。

问题：我怎样才能增强标准令牌器来完成它现在正在做的所有事情，并生成一些像这样的额外令牌......

bob,a-6,000123,xyz产生代币... |bob|a-6,000123|xyz|a-6|000123|

。那么用户可以按"000123"搜索吗？

不确定你是否可以用StandardTokenizerFactory做任何事情(好吧，也许创建你自己的版本，但这似乎太麻烦了(。

你可以肯定的是使用WordDelimiterFilterFactory。如果它没有发出你想要的术语，请使用不同的参数，最后使用 wdftypes.txt 文件来实现它

相关内容