如何使用Python每天抓取一次每日新闻

我正在尝试构建一个应用程序，我需要几个网站的每日新闻提要。一种方法是使用Python的BeautifulSoup库。然而，这对于在一个静态页面上有新闻的页面来说是好的。

让我们考虑一个网站http://www.techcrunch.com.他们只有一个标题，想要了解更多新闻，你需要点击"阅读更多"。其他几家新闻网站也有类似的情况。如何提取这些信息并将其转储到文件-txt/.dmp或任何其他类型的文件中？我应该使用什么工具？我应该采取什么方法在Python中实现这一点？

我需要这个脚本每天从几个网站自动下载一次新闻，并将其存储在一个包含标题、日期、内容等类别的文件中。我会将这个脚本上传到apache2服务器上。有什么建议吗？

如何提取这些信息并将其转储到文件-txt/.dmp或任何其他类型的文件中？我应该使用什么工具？

欲了解更多新闻，请点击"；阅读更多"；。

你可能会利用Selenuim作为纯粹的浏览器自动化或iMacros。

下面是一个在Python服务器端利用Selenium的例子
这是一篇关于使用iMacros进行数据提取的文章（和视频）。由于你每天只需要一次，你可以安排在Win或Mac中定期运行它

相关内容

最新更新

热门标签：