如何抓取jquery支持的网站



我正在构建一个单页javascript支持的网站。我有所有页面的所有必要数据,在主页上使用php作为json对象进行响应。然后,我使用为每个页面制作的自定义插件初始化页面,该插件使用相关的json数据动态构建dom,并将其传递给插件,因此我没有任何ajax请求。我网站上的链接格式如下#关于#home等等。目前插件的init方法是在hashchange上调用的。我应该怎么做才能让这些页面能够被谷歌机器人抓取,以及如何为每个页面制作不同的标题和描述元标签?

我试过在谷歌文档和许多其他网站上找到的各种东西。我已将链接从#mylink更改为#!mylink,所以谷歌应该将其解释为get_escape_fragment_变量,然后我尝试添加这段php代码:

if ($fragment = $_GET['_escaped_fragment_']) {
header("Location: Project.php?id=$fragment", 1, 301);
exit;
}

其中project.php是一个包含相关信息的html快照,我想对其进行爬网。基本上只是核心信息。但据我所见,什么都没发生…:(毕竟,有没有一种方法可以在没有AJAX请求的情况下实现这一点?

谷歌实际上已经发布了如何使ajax可爬网——谁能更好地告诉你如何!?

https://developers.google.com/webmasters/ajax-crawling/

该页面的直接链接

  • 了解更多
  • 入门指南
  • 创建HTML快照
  • 常见问题
  • 规格

替代指南

如果你觉得很难理解,可以在SitePoint上试试这个,它会告诉你它是如何做到的:http://www.sitepoint.com/google-crawl-index-ajax-applications/

好吧,唯一的方法是构建一个站点地图,并在每个页面中添加xml站点地图文件的链接;通过谷歌网站管理员工具提交你的网站地图。

最新更新