Solr Regex - parse tab seperated CSV



您好,我有一个CSV,它由每个字段的选项卡分隔:

id  name    subject description comments
c4e 10181   Hello1  d1  1
741 10181   Hello2  d2  2
b62 10181   Hello3  d3  3
fd4 10181   Hello4  d4  4
2fb 10181   Hello5  d5  5

我想用 solr Regextransformer 正则表达式来规范它,通过 Dataimporthandler (DIH) 导入它,但最终正则表达式不起作用:

 <field column="id" sourceColName="rawLine" regex="^(.*)t(.*)t(.*)t(.*)t"/>
 <field column="name" sourceColName="rawLine" regex="t(.*)t(.*)t(.*)t(.*)$"/>
 <field column="subject" sourceColName="rawLine" regex="t(.*)t(.*)t(.*)$"/>
 <field column="description" sourceColName="rawLine" regex="t(.*)t(.*)$"/>
 <field column="comments" sourceColName="rawLine" regex="t(.*)$"/>

主题、描述和注释是错误的,它们还占用了前面的字段,正则表达式有什么问题?

从你的描述来看,我会说这是一个贪婪的问题。将最后 3 行中出现的每个.*替换为.*?是否有帮助

最新更新