我需要识别页面中的内容-做一些事情http://www.alchemyapi.com/api/text/(我需要得到的HTML,所以我不能使用这个API)
我可以用什么逻辑来完成这个?(编码语言无关紧要)
我所做的(结果很好)-需要更多的修复…
- 查找页面中最多的文本,所以不要有分隔标签-忽略内联标签(span, b等…)
- 上一级并计数分隔标签(br, p,div等…)
- 再上一层,计数标签
- 比较步骤2和步骤3的标签数
- 如果有很多不同的,我们停在这里,如果没有,我们进入步骤3
查找Boilerpipe库。这是一个全面的解决方案。
使用Boilerpipe库,可以将输出指定为HTML。因此,您可以获得主要内容(文章),同时仍然保留其HTML标记。
另一个好的选择是使用Goose。
它允许比Boilerpipe (title, content)更多的字段(发布日期,作者,文章中的主图像等)
您需要一个解析器来导航DOM,在NuGet包中您可以找到一些有用的解析器工具,如