SOLR数据输入处理程序(DIH):在索引期间提取电子邮件地址并放入另一个字段



我有一个名为main_text的字段,其中包含一个大的文本条目。

我想通过创建一个新的集合来重新索引我的数据,但是我想从这个字段中提取所有的电子邮件地址到一个叫做emails_fields的新的特殊字段。

最好的方法是什么?

使用什么处理程序?DIH吗?另一个?这个新领域应该是什么类型的?

要使用DataImportHandler,您应该在您的data-config.xml文件中添加类似于以下的内容:

<field column="email_fields" regex="(/S+@/S+)" sourceColName="main_text"/>

将查找与正则表达式/S+@/S+匹配的电子邮件地址。这个正则表达式应该修改成更适合实际使用的形式。

字段的类型取决于你想如何搜索它,但它应该是stringtext_general,如果你期望在每个文档中有多个电子邮件,它应该是多值的。

最新更新