如何从具有不同布局的网站中提取文章内容

我有一个由不同机构发布的文章的1000个URL列表，当然每个URL都有自己的HTML布局。我正在编写一个python代码，仅从每个URL中提取文章正文。这可以通过

仅查看

段落标签来完成吗？我会缺少一些内容吗？还是通过这种方法包含不相关的内容？

谢谢

对于某些文章，您将缺少内容，而对于其他文章，您将包含不相关的内容。实际上，没有办法仅从URL中获取文章正文，因为每个站点布局可能会有很大差异。

您可以尝试的一件事是抓取正文标签内多个连续 p 标签中包含的文本，但仍然不能保证您只会获得文章的正文。

如果您将URL列表分解为每个不同站点的列表，那将容易得多，这样您就可以逐案定义文章正文的内容。

要回答您的问题，您极不可能只获得定位<p></p>标签的文章内容。你会得到很多不必要的内容，需要大量的努力来过滤，保证。

尝试查找这些网站的 RSS 提要。这将使抓取目标数据比解析整个 HTML 页面容易得多。

相关内容