从新闻来源自动抓取新新闻文章的最有效方法是什么?



我想构建一个新闻聚合器应用程序。我有一个问题,我不知道如何从新闻网页中获取新的新闻文章。 我用python编写了一个抓取器脚本,当我运行时,它从源(今天发布时(获取所有新闻并将它们保存到CSV文件中(我保存:URL,标题,日期,时间,图像URL,类别,内容(。当我再次运行脚本时,它会检查 CSV 文件是否处理了 URL,因此它不会写入重复的内容,只写入新内容。最后,我想将这些结果写入我的数据库。 但是有了这个脚本,我必须定期运行它(比如说每 10 分钟一次(来检查是否有新内容发布。 这是实现此目的的写入方式吗? 有没有更好的方法来收听新内容发布时可以采取的新闻来源? 如果这是这样做的方法,我如何将脚本设置为定期运行? 非常感谢您的帮助。

我再次运行脚本,它会检查 CSV 文件是否处理了 URL,因此它不会写入重复的内容,只写入新内容。

您可以补充您的问题:

  • 网站地址
  • 你已经完成的 Python 代码

我给你的建议是:从DB获取最新的URL(比如100-200,数量应该与网页上的URL编号相当(,并根据网页上的当前URL进行检查。如果出现新的 URL,请将其抓取。

最新更新