我一直阻止谷歌使用robots.txt文件索引我的网站。最近我读了一篇谷歌员工的文章,他说你应该使用元标记来做到这一点。这是否意味着机器人.txt将无法工作?由于我正在使用CMS,因此我的选择非常有限,并且仅使用robots.txt文件要容易得多。我的问题是,如果我继续使用机器人文件而不是元标记,会发生什么最坏的情况.txt。
这是简单术语的区别:
机器人.txt文件控制爬行。它指示正在寻找页面爬行的机器人(又名蜘蛛("远离"某些地方。将此文件放在网站的根目录中。
noindex标记控制索引。它告诉蜘蛛不应该索引该页面。将此标记放在相关网页的代码中。
当您想要在目录级别或整个站点进行控制时,请使用 robots.txt 文件。但是,请记住,机器人不需要遵循这些指令。大多数会,例如Googlebot,但将任何高度敏感的信息排除在网站的可公开访问区域之外会更安全。
与 robots.txt 文件一样,noindex 标签将从搜索结果中排除页面。系统仍会抓取相应网页,但不会将其编入索引。当您希望在单个页面级别进行控制时,请使用这些标记。
关于抓取和索引之间的区别:爬行(通过蜘蛛(是搜索引擎的蜘蛛跟踪您的网站的方式;爬行的结果进入搜索引擎的索引。将此信息存储在索引中可加快相关搜索结果的返回速度,而不是扫描与搜索相关的每个页面,而是搜索索引(较小的数据库(以优化速度。
如果没有索引,搜索引擎会查看与搜索词相关的每一点数据或信息,我们都有时间在等待搜索结果显示的同时制作和吃几个三明治。该索引使用蜘蛛来保持其数据库最新。
下面是标记的示例:
<meta name="robots" content="noindex,follow"/>
现在您阅读并理解了上述信息,我认为您可以自行回答您的问题;)
事实上,GoogleBot有机会使用:
- 无索引
- 不关注
- 爬网延迟
但是在GoogleBlog-News上看到,从2019年9月开始,他们将不再支持这些(0,001%使用(命令。因此,您应该只使用元标记,因为页面上的元标记是安全的。