如何使用Python每天抓取一次每日新闻



我正在尝试构建一个应用程序,我需要几个网站的每日新闻提要。一种方法是使用Python的BeautifulSoup库。然而,这对于在一个静态页面上有新闻的页面来说是好的。

让我们考虑一个网站http://www.techcrunch.com.他们只有一个标题,想要了解更多新闻,你需要点击"阅读更多"。其他几家新闻网站也有类似的情况。如何提取这些信息并将其转储到文件-txt/.dmp或任何其他类型的文件中?我应该使用什么工具?我应该采取什么方法在Python中实现这一点?

我需要这个脚本每天从几个网站自动下载一次新闻,并将其存储在一个包含标题、日期、内容等类别的文件中。我会将这个脚本上传到apache2服务器上。有什么建议吗?

如何提取这些信息并将其转储到文件-txt/.dmp或任何其他类型的文件中?我应该使用什么工具?

欲了解更多新闻,请点击";阅读更多";。

你可能会利用Selenuim作为纯粹的浏览器自动化或iMacros。

  1. 下面是一个在Python服务器端利用Selenium的例子
  2. 这是一篇关于使用iMacros进行数据提取的文章(和视频)。由于你每天只需要一次,你可以安排在Win或Mac中定期运行它

最新更新