如何归档和检索大型HTML数据集



我是一名新生,这个周末我要参加一个比赛。问题是关于归档和检索一个大的HTML数据集,我不知道它。我的朋友建议我使用网页存档和普通抓取。请建议我一种方法将HTML数据集转换为web存档以及如何索引它们。

WARC格式是一种广泛使用的标准,绝对是存档网页的好选择。HTTP头也包含在WARC文件中。因此,您需要一个爬虫来创建WARC文件。如果HTML页面是作为文件集合提供的,则需要对文件系统进行抓取。通过本地HTTP服务器)将内容放入WARC文件。

其他都取决于具体的任务:有许多工具和库

  1. 抓取和导出WARC内容:最简单的是wget --warc-file,但还有更多

  2. 读取WARC文件并处理内容。

参见WARC生态系统获取工具集合。如果你只需要一个严肃的WARC文件作为开始,从Common Crawl获取一个,例如https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz

你可以使用Heritrix Crawler抓取你需要的网站。这可以通过CURL请求自动编写Shell脚本。

一旦你抓取了网站,你可以安装OpenWayBack,在你的浏览器中'播放'存档网站。

OpenWayback带有一个工具:CDX-Indexer,可以用于indexing抓取网站。

目前OpenWayBack还没有开发,你可以使用WaybackPY来玩warc。

最新更新