使用脚本在Solr中将段落解析为单独的文档

我想使用Nutch浏览网站列表，然后将每个文档分解为段落，并将它们发送给Solr进行索引。

我一直在使用以下脚本来自动化抓取/获取/解析/索引的过程：

bin/crawl -i -D solr.server.url=http://localhost:8983/solr/#/nutch -s ./urls/ Crawl 2

我的想法是在这个工作流程的中间(可能是Nutch的解析阶段？(附加一个脚本，该脚本可以分解段落，比如paragraphs.split()。我怎样才能做到这一点？

此外，我需要为每个段落添加一个字段，显示它在文档中的数字位置以及它属于哪个章节。章节是文档中的h2标签。

目前，您的问题还没有一个简单的答案。为了实现这一点，您需要自定义代码，特别是Nutch有两个不同的插件来处理解析HTML代码parse-html和parse-tika。这些插件专注于提取文本内容，而不是从HTML文档中提取太多结构化数据。

您需要一个自定义解析器(HtmlParserPugin(插件，该插件将以自定义方式处理HTML文档中的段落节点(提取内容和位置信息(。

您需要的另一个组件是在Solr中对数据进行建模，因为您需要将段落的位置保持在同一文档中，所以您还需要以在Solr可搜索的方式发送这些数据，也许可以使用嵌套文档(这实际上取决于您计划如何使用数据(。

例如，您可以看看这个插件，它实现了从HTML中使用任意X路径表达式提取数据的自定义逻辑。

相关内容