使用 Python 网络爬虫获取新闻文章的发布日期



我需要提取新闻文章周围的不同字段,并且我已经能够自动化其中的大部分,除了新闻文章的发布日期。目前,我手动访问相应的网站,检查发布日期周围的 HTML 标记,并编写一个 jQuery 来提取日期并在 pyquery 中实现相同的内容。但是,我也想删除这个手动步骤,并为纽约时报等新闻网站编写一个通用的网络爬虫。我能想到的最接近的是编写大量正则表达式,这些正则表达式可以匹配文章 DOM 中的日期时间格式,但无法找出如何区分实际发布日期和实际文章本身中可能存在的任何其他日期的方法。我研究并意识到谷歌和Duckduckgo都在他们的搜索结果中显示文章的时间戳,所以必须有可能实现这一点。

编辑:我相信我问题的语言不是很清楚,所以我的问题是是否有办法自动从任何新闻文章中抓取发布日期,即可以从博客文章或新闻文章中提取发布日期的通用爬虫。

没有通用的方法可以获取新闻文章的撰写日期(尽管您可以设计一个规则来解析每个新闻网站),但您可以使用 Javascript 中的 document.lastModified 获取网页的最后修改日期,或者从 HTTP 标头解析Last-Modified字段。

最新更新