这是我最近看到的一些蜘蛛用户代理字符串。 它们似乎都包含一个以 + 为前缀的 URL:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 (compatible; meanpathbot/1.0; +http://www.meanpath.com/meanpathbot.html)
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Mozilla/5.0 (iPhone; CPU iPhone OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5376e Safari/8536.25 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
这只是大多数蜘蛛遵循的惯例吗? 还是在某处指定。 我找不到它。
这只是一些蜘蛛遵循的惯例。 对于用户可以在用户代理标头中放置的内容没有限制。
看看这个包含"GoogleBot"的用户代理列表。 您会注意到其中许多不包含"+http"。