谷歌爬虫-如何防止bot/googlebot索引促销主页



我们有一个电子商务网站。由于一些营销和促销活动,如果用户是第一次访问基于cookie的网站,我们将在主页上显示应用程序下载页面/横幅/促销/大图像(而不是其他)。

但我不希望机器人/爬虫看到这些内容(大图像),相反,他们应该看到设置cookie后的真实内容。两个内容的URL相同。

我可以澄清更多。如何避免机器人看到促销内容?

您需要一个robots.txt文件。

来自维基百科:

机器人排除标准,也称为机器人排除协议或Robots.txt协议,是一项建议合作的网络爬虫和其他网络机器人访问所有或部分可公开查看的网站的公约。机器人经常被搜索引擎用来对网站进行分类和归档,或者被网站管理员用来校对源代码。该标准不同于Sitemaps,但可以与Sitemaps结合使用,Sitemaps是网站的机器人包含标准。

请记住,如果这些指令是"邪恶的",机器人可以简单地忽略它们;然而,谷歌和其他搜索引擎应该遵守它,只要你设置正确。

现在我使用这个函数来检测php控制器代码中的机器人/爬网程序,并根据需要进行重定向。

function bot_detected()
{
  if 
  (
    !isset($_SERVER['HTTP_USER_AGENT'])
    ||
    empty($_SERVER['HTTP_USER_AGENT'])
    ||
    preg_match('/bot|crawl|slurp|spider/i', $_SERVER['HTTP_USER_AGENT'])
    ||    
    preg_match('/scrappy/python/httpclient/Googlebot|DoCoMo|YandexBot|bingbot|ia_archiver|AhrefsBot|Ezooms|GSLFbot|WBSearchBot|Twitterbot|TweetmemeBot|Twikle|PaperLiBot|Wotbox|UnwindFetchor|facebookexternalhit/i', $_SERVER['HTTP_USER_AGENT'])
   ) 
  {
    return TRUE;
  }
  return FALSE;
}

最新更新