如何从具有不同布局的网站中提取文章内容



我有一个由不同机构发布的文章的1000个URL列表,当然每个URL都有自己的HTML布局。 我正在编写一个python代码,仅从每个URL中提取文章正文。这可以通过

仅查看

段落标签来完成吗? 我会缺少一些内容吗?还是通过这种方法包含不相关的内容?

谢谢

对于某些文章,您将缺少内容,而对于其他文章,您将包含不相关的内容。实际上,没有办法仅从URL中获取文章正文,因为每个站点布局可能会有很大差异。

您可以尝试的一件事是抓取正文标签内多个连续 p 标签中包含的文本,但仍然不能保证您只会获得文章的正文。

如果您将URL列表分解为每个不同站点的列表,那将容易得多,这样您就可以逐案定义文章正文的内容。

要回答您的问题,您极不可能只获得定位<p></p>标签的文章内容。你会得到很多不必要的内容,需要大量的努力来过滤,保证。

尝试查找这些网站的 RSS 提要。这将使抓取目标数据比解析整个 HTML 页面容易得多。

最新更新