小贝子编程

LUCENE 标准分析器连字符注意事项

本文关键字：连字符注意事项分析器标准分标准 LUCENE lucene
更新时间 : 2023-09-05
英文 : LUCENE Standard Analyzer Hyphen consideration

在使用lucene标准分析器索引我的文档时，我得到了一个ploblem。

例如：我的文件有一个词"抄袭主义"......在这里，该分析器将其索引为"plag"和"iarism"。但我想要像"抄袭"。我必须做什么才能得到一个完整的词？

StandardAnalyzer 将 tokanization 委托给 StandardTokenizer。您可以创建自己的tokanizer以满足您的确切需求（您可以基于StandardTokenizer）。

或者，如果你愿意，你可以对 String.replace（）进行一个肮脏的黑客攻击，使用相关的正则表达式，只运行分析器。是的。丑。

最新更新

运行我的代码时出现错误:未知的自定义元素
在Selenium 4中使用Behat和Mink Selenium2驱动程序为Microsoft Edge浏览器运行测试
宽度未知的可变列数
我必须在.env文件中存储哨兵公钥吗?
Mongodb子文档没有自动生成对象id Typegoose/ mongoose
类型中构造函数的参数 0 需要找不到类型为"org.hibernate.SessionFactory"的 Bean
根据r中的日期和小时每隔15分钟聚合数据
如何解决关于Optuna存储的错误?
c语言中OO继承的混叠问题
launchWebAuthFlow窗口在chrome扩展关闭后保持打开
使用非初始结构变量作为参数调用函数不会产生警告
Pytorch - mat1和mat2形状不能相乘(3328x13和9216x4096)
我如何得到一个节点超时的内部id使用符号没有硬编码查找索引?
spring引导应用程序读取另一个jar的应用程序配置值吗?
如何在main.js中导入javascript库以在整个vue应用程序中获得全局可用性?
使段落出现，并使其在点击显示下一个段落时消失
GROUP_CONCAT(DISTINCT xxx)将连接值的顺序颠倒
r语言 - 循环遍历列表的列表
如何使用Pandas数据框架将R代码语法转换为Python语法?
当我运行服务器我得到这个错误:Django 405错误
如何将列表中的每个数字与另一个列表中的每个数字相乘
用其他字典中的值替换字典中值列表中的元素
super() 不能递增父类的类变量，但它会更新父类的类字典
Java中的冗余赋值vs赋值前检查
输入数据量变化;需要的建议
根据键合并两个数组，并使用mongo聚合添加新字段
显示头表，从数组的子列- Angular
如何上传AppendBlob/一个大于4mb限制的文件到Azure存储/Blob在Java?
client_loop: send disconnect:长时间运行jenkins管道时管道破裂问题
使用 python 跟踪游戏不断更新的日志文件的最佳方法是什么？

LUCENE 标准分析器连字符注意事项

相关内容

最新更新

热门标签：