如果我知道目标网页和文件扩展名,但不知道文件名,我该如何使用爬网程序



我有一个需要爬网的网页。它看起来像这样:

www.abc.com/a/b/

我知道在/b目录下,有一些扩展名为.html的文件我需要。我知道我可以访问那些.html文件,但我不能访问www.abc.com/a/b/。那么,在不知道.html文件名的情况下,我如何对那些.html页面进行爬网?

如果不知道如何访问网页,就无法对其进行爬网。

如果我理解你的意思,你想访问在索引页不在的目录中可以访问的页面(因为你得到了403)。

在你放弃之前,你可以尝试以下方法:

  • 检查主搜索引擎是否链接到你似乎知道的目录中的页面(因为如果你知道你可以访问那些.html,你可能至少知道其中一个)。包括该链接的页面也可能包括指向该目录内文件的其他链接。例如,在谷歌中,使用link:运算符:

link:www.abc.com/a/b/the_file_you_know_exists

  • 检查网站是否在主搜索引擎中建立了索引。例如,在谷歌中,使用site:运算符:

site:www.abc.com/a/b/

  • 检查网站是否存档在archive.org中:

http://web.archive.org/web/*/www.abc.com/a/b/

  • 使用memento检查是否可以在其他网络档案中找到它:

http://timetravel.mementoweb.org/reconstruct/*/www.abc.com/a/b/

  • 尝试查找其他可能的文件名,如index1.html、index_old.html、index.html_old、contact.html等。您可以创建一个长的可能文件名列表来尝试,但这也取决于您对网站的了解

这可能会为您提供该网站中仍然存在或过去存在的页面。

最新更新