wget——warc-file只得到主页和机器人页面?

我正在尝试在一个小WARC文件上做一个小项目。我使用了这个命令:

[ ! -f course.warc.gz ] && wget -r -l 3 "https://www.ru.nl/datascience/" --delete-after --no-directories --warc-file="course" || echo Most likely, course.warc.gz already exists

我第一次运行，一切都很好，超过150页的价值，惊人的。现在我想从头开始，所以我删除了文件course.warc.gz;问题是，当我现在运行相同的命令时，我得到了3个页面:请求的一个页面和要引导的两个机器人页面。为什么会发生这种情况?

Wget可以跟随HTML中的链接，[…]这有时被称为"递归下载"。在这样做时，Wget尊重机器人排除标准(/robots.txt)。(wget手动)

robots.txt包含以下规则:

# Block alle andere spiders
User-agent: *
Disallow: /

很难回答以前运行wget时是否发生了什么。也许robots.txt变了?

相关内容

最新更新

热门标签：