允许对外部 Javascript 文件进行爬网

我在谷歌控制台中的网站遇到问题

我在谷歌控制台中为我的网站收到以下错误

资源：

https://api.html5media.info/1.1.5/html5media.min.js 
Type : Script   
Status : Googlebot blocked by robots.txt

我的网站在 xcart 中，我的机器人.txt包含

User-agent: Googlebot
Disallow: /*printable=Y*
Disallow: /*js=*
Disallow: /*print_cat=*
Disallow: /*mode=add_vote*
User-agent: *
Allow: *.js
Allow: *.css
Allow: *.jpg
Allow: *.gif
Allow: *.png
Disallow: /admin/
Disallow: /catalog/
Disallow: /customer/
Disallow: /files/
Disallow: /include/
....

我试过改变

User-Agent: Googlebot
Disallow: /*printable=Y*
Disallow: /*print_cat=*
Disallow: /*mode=add_vote*
Allow: .js

但是上面的代码没有运气。有人有解决方案吗？如何允许谷歌机器人允许的第三方JS使用我的机器人.txt

如果.js文件位于您无法控制的第三方网站上，则不可以，无法从您的网站取消阻止它。给定的robots.txt文件仅控制从中加载robots.txt文件的域/子域上的文件的抓取。要取消阻止此文件，您需要能够更改第三方域上的 robots.txt 文件。(我假设你不能在这里这样做(

解决此问题的最简单方法是将js文件复制到您自己的服务器，并链接到那里。

相关内容

最新更新

热门标签：