我有一个由不同机构发布的文章的1000个URL列表,当然每个URL都有自己的HTML布局。 我正在编写一个python代码,仅从每个URL中提取文章正文。这可以通过 仅查看
谢谢
对于某些文章,您将缺少内容,而对于其他文章,您将包含不相关的内容。实际上,没有办法仅从URL中获取文章正文,因为每个站点布局可能会有很大差异。
您可以尝试的一件事是抓取正文标签内多个连续 p 标签中包含的文本,但仍然不能保证您只会获得文章的正文。
如果您将URL列表分解为每个不同站点的列表,那将容易得多,这样您就可以逐案定义文章正文的内容。
要回答您的问题,您极不可能只获得定位<p></p>
标签的文章内容。你会得到很多不必要的内容,需要大量的努力来过滤,保证。
尝试查找这些网站的 RSS 提要。这将使抓取目标数据比解析整个 HTML 页面容易得多。