在我的情况下,我想从主要包含阿拉伯语单词的文档中筛选出所有英语单词。
假设文本是Unicode,英语和阿拉伯语字母使用不同的字符,您可以用正则表达式将它们过滤掉。
因此,在Solr中,您可以使用PatternPlaceFilterFactory和标准Java正则表达式。请注意,Java的实现实际上非常深入,并且支持脚本、块和其他使用Unicode标准范围的快捷方式。
Solr也有一些ICU过滤器和标记器,但它们更多地用于复杂字符的音译、转换和规范化。