我是一名新生,这个周末我要参加一个比赛。问题是关于归档和检索一个大的HTML数据集,我不知道它。我的朋友建议我使用网页存档和普通抓取。请建议我一种方法将HTML数据集转换为web存档以及如何索引它们。
WARC格式是一种广泛使用的标准,绝对是存档网页的好选择。HTTP头也包含在WARC文件中。因此,您需要一个爬虫来创建WARC文件。如果HTML页面是作为文件集合提供的,则需要对文件系统进行抓取。通过本地HTTP服务器)将内容放入WARC文件。
其他都取决于具体的任务:有许多工具和库
-
抓取和导出WARC内容:最简单的是
wget --warc-file
,但还有更多 -
读取WARC文件并处理内容。
参见WARC生态系统获取工具集合。如果你只需要一个严肃的WARC文件作为开始,从Common Crawl获取一个,例如https://commoncrawl.s3.amazonaws.com/crawl-data/CC-MAIN-2016-30/segments/1469257824853.47/warc/CC-MAIN-20160723071024-00101-ip-10-185-27-174.ec2.internal.warc.gz
你可以使用Heritrix
Crawler抓取你需要的网站。这可以通过CURL
请求自动编写Shell
脚本。
一旦你抓取了网站,你可以安装OpenWayBack
,在你的浏览器中'播放'存档网站。
OpenWayback
带有一个工具:CDX-Indexer
,可以用于indexing
抓取网站。
目前OpenWayBack
还没有开发,你可以使用WaybackPY
来玩warc。