我正在索引以下类型文本常见的文档:
- 高20米 | 高20米
- 20GB 数据 | 20 GB 数据
- 14 盎司液体 | 14 盎司液体
当有人搜索20m
时,它与20 m
不匹配,反之亦然。
是否有处理此问题的分词器或过滤器?我认为它需要一个预定义单位列表来匹配。
如果还没有分词器或过滤器,我将如何解决这个问题?
也许是额外的解决方案。WordDelimiterFilterFactory 会有所帮助。 要查找的选项是
splitOnNumerics="1"
它将"20m"拆分为"20","m"