小贝子编程

信息检索-我们如何使用SOLR过滤属于某一语言的所有标记

本文关键字：语言属于我们何使用过滤 SOLR 信息检索 solr information-retrieval
更新时间 : 2023-08-21
英文 : information retrieval - How do we filter all tokens belonging to a certain language using SOLR?

在我的情况下，我想从主要包含阿拉伯语单词的文档中筛选出所有英语单词。

假设文本是Unicode，英语和阿拉伯语字母使用不同的字符，您可以用正则表达式将它们过滤掉。

因此，在Solr中，您可以使用PatternPlaceFilterFactory和标准Java正则表达式。请注意，Java的实现实际上非常深入，并且支持脚本、块和其他使用Unicode标准范围的快捷方式。

Solr也有一些ICU过滤器和标记器，但它们更多地用于复杂字符的音译、转换和规范化。

最新更新

r语言 - 我如何创建一个新的列，根据两个列中的行分配的条件值?
在Django中从文件路径生成媒体url
Python:为什么我在这两个问题上得到typeerror ?(递归)
每秒请求数
在Swagger UI中是否有一种方法可以在POST上隐藏某个字段(例如Employee ID)，但在PATCH和GET
c语言 - MISRA 要求函数的单点出口用于"lookup table"函数
如何在处理git分支时忽略文件
字符串自定义日期时间格式解析c#
SQL中基于日期的运行总数
在json对象中选择正确的单词
如何使用ansible打开SSH隧道?
PHP make if语句从表中返回新行
SwiftUI：Foreach in List - 有什么优势？
如何加载所有转储附加的字典在python pickle?
Jmeter语言 - 当前活动线程
Java作用域问题:try-catch块，解析字符串到日期
如何在主应用中获得UWP应用服务的通知?
复选框的定位
弹簧启动-采用与2个ymls不同的属性
Symfony 5.3+翻译提供商Crowdin不更新本地文件
从文本文件(.txt)中读取字节数组
如何下载完整的雅典娜查询结果到CSV文件
pyspark:在执行join - restrict相同列名选择时设置别名
如何在Eclipse RCP中隐藏/删除Preferences对话框中的导入/导出按钮
在自定义jackson反序列化器中以响应式方式从db加载实体
使用RestSharp从API返回JSON数据
OAuth同意屏幕不显示正确的AppName
使用ByRef更新记录集字段
提取多个XML文件中所有标签之间的文本，并将提取的文本复制到csv文件中
在Laravel和Vue之间共享数据的糟糕方式

信息检索-我们如何使用SOLR过滤属于某一语言的所有标记

相关内容

最新更新

热门标签：