使PHP网络爬虫尊重任何网站的机器人.txt文件



我已经开发了一个网络爬虫,现在我想尊重我正在抓取的网站的机器人.txt文件。

我看到这是机器人.txt文件结构:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

我可以逐行读取,然后使用带有空格字符的爆炸符作为分隔符来查找数据。

还有其他方法可以加载整个数据吗?

这种文件有没有像XPath那样的语言

还是我必须解释整个文件?

欢迎任何帮助,甚至链接,如果找到重复...

结构非常简单,因此您可以做的最好的事情可能是自己解析文件。 我会逐行阅读它,正如您所说,查找用户代理、禁止等关键字。

最新更新