将网页和相关资源下载到Python的WARC

我有兴趣下载以进行以后分析一堆网页。我想做两件事：

下载页面和关联资源（图像，与文章相关联的多个页面）
更改所有链接以指向现在的本地文件。

我想在python中这样做。

有什么好库可以做到吗？废纸似乎是为了刮擦网站而不是单页，我不确定如何生成WARC文件。如果没有更多的python本地人，请呼唤WGET是一个可行的解决方案。Heritrix完全是过度的，而不是Python解决方案。如果有一个有据可查的Python库，WPULL将是理想的选择，但似乎主要是一个应用程序。

其他想法？

只需使用 wget ，是最简单，最稳定的工具，您必须爬网并保存到WARC中。

男人wget ，或只是开始：

--warc-file=FILENAME        save request/response data to a .warc.gz file
-p,  --page-requisites           get all images, etc. needed to display HTML page

请注意，您不必更改任何链接，WARC保留原始网页。是重播软件（OpenWayback，pywb）的工作，使WARC内容再次可浏览。

如果您需要与Python一起去：Internetharchive/warc是默认库

如果您想手动制作warc文件ampoffcom/htmlwarc

，请看一下

相关内容

最新更新

热门标签：