如果我知道目标网页和文件扩展名，但不知道文件名，我该如何使用爬网程序

我有一个需要爬网的网页。它看起来像这样：

www.abc.com/a/b/，

我知道在/b目录下，有一些扩展名为.html的文件我需要。我知道我可以访问那些.html文件，但我不能访问www.abc.com/a/b/。那么，在不知道.html文件名的情况下，我如何对那些.html页面进行爬网？

如果不知道如何访问网页，就无法对其进行爬网。

如果我理解你的意思，你想访问在索引页不在的目录中可以访问的页面(因为你得到了403)。

在你放弃之前，你可以尝试以下方法：

检查主搜索引擎是否链接到你似乎知道的目录中的页面(因为如果你知道你可以访问那些.html，你可能至少知道其中一个)。包括该链接的页面也可能包括指向该目录内文件的其他链接。例如，在谷歌中，使用link:运算符：

link:www.abc.com/a/b/the_file_you_know_exists

site:www.abc.com/a/b/

http://web.archive.org/web/*/www.abc.com/a/b/

http://timetravel.mementoweb.org/reconstruct/*/www.abc.com/a/b/

尝试查找其他可能的文件名，如index1.html、index_old.html、index.html_old、contact.html等。您可以创建一个长的可能文件名列表来尝试，但这也取决于您对网站的了解

这可能会为您提供该网站中仍然存在或过去存在的页面。

相关内容