如何在 Java 中使用站点地图进行网络爬虫



我需要开发爬虫,它将从网站上抓取所有产品链接和价格。我听说使用机器人文件中提到的站点地图更有效.txt快捷,但我无法弄清楚如何使用站点地图进行抓取。请有人帮我如何使用站点地图进行抓取。

谢谢。

正如您所说,您想创建一个爬虫并且您想使用机器人上可用的站点地图.txt那么这就是您需要做的。

1(任何站点都将有其机器人.txt在站点的第一层。因此,对于您要抓取的任何网站,您可以解析 http://any-websitesite-name.com/robots.txt Sitemap: 您可以使用 Java 编写解析器。示例:http://www.javapractices.com/topic/TopicAction.do?Id=87

2(完成后,您将获得站点地图URL(可以是.xml或.xml.gz(

3(编写一个Java消化器来解析xml。下面是一个示例:http://devguru.com/features/tutorials/jakarta/jakarta.asp确保您阅读了任何网址的<loc>..</loc>标记

注意:许多网站在机器人上没有站点地图.txt最好在机器人上不可用时点击http://website-name/sitemap.xml.txt。

希望有帮助。

要使用站点地图,您必须先有一个站点地图,因此您需要先生成它。然后,Googlebot和其他公司将使用您生成的站点地图将其索引为搜索引擎编入索引。例如,有几个免费的站点地图生成器 http://www.xml-sitemaps.com 但它们有局限性。

AFAIK 它实际上与 Java 没有太大关系。我的意思是,你可以用Java相当容易地创建一个爬虫,但我不认为这是值得的。如果网站不是太大,免费版本可以很好地完成工作。

机器人.txt提供排除列表,用于提醒cralwer注意排除,不要使用上述目录。并非所有网站都提供排除。网站地图有助于更好地了解产品的分类,因此很有用。

最新更新