使用脚本在Solr中将段落解析为单独的文档



我想使用Nutch浏览网站列表,然后将每个文档分解为段落,并将它们发送给Solr进行索引。

我一直在使用以下脚本来自动化抓取/获取/解析/索引的过程:

bin/crawl -i -D solr.server.url=http://localhost:8983/solr/#/nutch -s ./urls/ Crawl 2

我的想法是在这个工作流程的中间(可能是Nutch的解析阶段?(附加一个脚本,该脚本可以分解段落,比如paragraphs.split()。我怎样才能做到这一点?

此外,我需要为每个段落添加一个字段,显示它在文档中的数字位置以及它属于哪个章节。章节是文档中的h2标签。

目前,您的问题还没有一个简单的答案。为了实现这一点,您需要自定义代码,特别是Nutch有两个不同的插件来处理解析HTML代码parse-htmlparse-tika。这些插件专注于提取文本内容,而不是从HTML文档中提取太多结构化数据。

您需要一个自定义解析器(HtmlParserPugin(插件,该插件将以自定义方式处理HTML文档中的段落节点(提取内容和位置信息(。

您需要的另一个组件是在Solr中对数据进行建模,因为您需要将段落的位置保持在同一文档中,所以您还需要以在Solr可搜索的方式发送这些数据,也许可以使用嵌套文档(这实际上取决于您计划如何使用数据(。

例如,您可以看看这个插件,它实现了从HTML中使用任意X路径表达式提取数据的自定义逻辑。

最新更新