如果你有URL路径,是否可以检测到唯一命名的文件



假设有人在https://this-site.com/files/pdfs/some_file_name.pdf上发布了资源

然后,另一个资源被发布在那个URL上,我们不知道它的名称。但是,路径名是相同的:https://this-site.com/files/pdfs/another_unique_resource98237219.pdf

是否可以检测新的PDF何时发布到此位置?还是我们必须更多地了解后端基础设施?请记住:

  • URL的其他部分都不是有效路径,换句话说,https://this-site.com/files/pdfshttps://this-site.com/files都返回404个错误
  • 文件的名称是唯一的,不遵循特定的模式

如果这不可能,您可以通过哪些其他方式检查请求/响应基础结构以查找发布到该URL的资源?

我的第一个建议是看看是否有另一个页面显示了网站上可用资源的列表,当然假设网站所有者实际上提供了这样的页面

另一种方法将有效地强制该路径下的所有URL。你需要收集一些SOCKS来与你的爬网程序一起使用,以便在多个IP地址之间分发你的请求,否则服务器可能会阻止你的IP地址。如果您能够区分文件名中的最小字符数和最大字符数(而不是模式,只是长度(,则可以极大地优化此操作。

最新更新