将网页和相关资源下载到Python的WARC



我有兴趣下载以进行以后分析一堆网页。我想做两件事:

  • 下载页面和关联资源(图像,与文章相关联的多个页面)
  • 更改所有链接以指向现在的本地文件。

我想在python中这样做。

有什么好库可以做到吗?废纸似乎是为了刮擦网站而不是单页,我不确定如何生成WARC文件。如果没有更多的python本地人,请呼唤WGET是一个可行的解决方案。Heritrix完全是过度的,而不是Python解决方案。如果有一个有据可查的Python库,WPULL将是理想的选择,但似乎主要是一个应用程序。

其他想法?

只需使用 wget ,是最简单,最稳定的工具,您必须爬网并保存到WARC中。

男人wget ,或只是开始:

--warc-file=FILENAME        save request/response data to a .warc.gz file
-p,  --page-requisites           get all images, etc. needed to display HTML page

请注意,您不必更改任何链接,WARC保留原始网页。是重播软件(OpenWayback,pywb)的工作,使WARC内容再次可浏览。

如果您需要与Python一起去:Internetharchive/warc是默认库

如果您想手动制作warc文件ampoffcom/htmlwarc

,请看一下

最新更新