从页面中提取内容

我需要识别页面中的内容-做一些事情http://www.alchemyapi.com/api/text/(我需要得到的HTML，所以我不能使用这个API)

我可以用什么逻辑来完成这个?(编码语言无关紧要)

我所做的(结果很好)-需要更多的修复…

查找Boilerpipe库。这是一个全面的解决方案。

使用Boilerpipe库，可以将输出指定为HTML。因此，您可以获得主要内容(文章)，同时仍然保留其HTML标记。

另一个好的选择是使用Goose。

它允许比Boilerpipe (title, content)更多的字段(发布日期，作者，文章中的主图像等)

您需要一个解析器来导航DOM，在NuGet包中您可以找到一些有用的解析器工具，如

相关内容