我用node.js做了爬虫。我想每小时抓取一些网站。
我试图找出我应该使用什么用户代理,但我只得到了谷歌机器人和必应机器人这样的结果。我不知道我是否可以使用这些用户代理。
你能告诉我我应该使用哪个用户代理吗?
既然你做了自己的爬虫,你可以想出你自己的名字。没有关于UserAgent可能是什么的规则,但许多人使用像name/version
这样的格式,例如:
myAwesomeCrawler/1.0
还可以包含一个 URL,以便网站所有者可以在日志中看到机器人时找到有关机器人的详细信息:
myAwesomeCrawler/1.0 (http://example.org)
但最终这取决于你。
当然,这完全取决于您做一些不违法或违反您正在抓取的网站的服务条款的事情。
取决于你想要实现的目标。如果您想模仿合法的浏览器,只需使用Chrome或Firefox等常见浏览器的用户代理即可。如果您想告诉网站您是爬虫,只需使用您定义的内容(例如 xyzCrawler(。