我正在尝试在一个小WARC文件上做一个小项目。我使用了这个命令:
[ ! -f course.warc.gz ] && wget -r -l 3 "https://www.ru.nl/datascience/" --delete-after --no-directories --warc-file="course" || echo Most likely, course.warc.gz already exists
我第一次运行,一切都很好,超过150页的价值,惊人的。现在我想从头开始,所以我删除了文件course.warc.gz;问题是,当我现在运行相同的命令时,我得到了3个页面:请求的一个页面和要引导的两个机器人页面。为什么会发生这种情况?
robots.txt包含以下规则:Wget可以跟随HTML中的链接,[…]这有时被称为"递归下载"。在这样做时,Wget尊重机器人排除标准(/robots.txt)。(wget手动)
# Block alle andere spiders
User-agent: *
Disallow: /
很难回答以前运行wget时是否发生了什么。也许robots.txt变了?