您好,我有一个CSV,它由每个字段的选项卡分隔:
id name subject description comments
c4e 10181 Hello1 d1 1
741 10181 Hello2 d2 2
b62 10181 Hello3 d3 3
fd4 10181 Hello4 d4 4
2fb 10181 Hello5 d5 5
我想用 solr Regextransformer 正则表达式来规范它,通过 Dataimporthandler (DIH) 导入它,但最终正则表达式不起作用:
<field column="id" sourceColName="rawLine" regex="^(.*)t(.*)t(.*)t(.*)t"/>
<field column="name" sourceColName="rawLine" regex="t(.*)t(.*)t(.*)t(.*)$"/>
<field column="subject" sourceColName="rawLine" regex="t(.*)t(.*)t(.*)$"/>
<field column="description" sourceColName="rawLine" regex="t(.*)t(.*)$"/>
<field column="comments" sourceColName="rawLine" regex="t(.*)$"/>
主题、描述和注释是错误的,它们还占用了前面的字段,正则表达式有什么问题?
从你的描述来看,我会说这是一个贪婪的问题。将最后 3 行中出现的每个.*
替换为.*?
是否有帮助