为什么网络爬虫必须具有这些属性,如健壮性、礼貌性等



为什么网络爬虫必须具有健壮性、礼貌性、可扩展性、质量、新鲜度和可扩展性?

健壮性:网络爬虫必须对网站内容的变化具有健壮性。Web 搜索需要尽快检索和索引每个新网页。如果一个网站刚刚上线,爬虫需要时间遍历 Frontier 队列中的所有前端节点,然后再专注于这个新网站。为了解决这个网络爬虫有分布式系统,它索引不同规范的不同网页

礼貌:Web 搜索必须遵守每个 Web 服务器的策略,以重新索引其网页。 如果某个 Web 服务器要求网络爬虫不要主动抓取页面,则爬虫可以将该页面放入优先级队列中,并在队列位于顶部时重新索引它

可扩展性:互联网上每天都有新网页,网络爬虫必须尽快索引每个页面。 为此,它需要容错、分布式系统、额外的机器等。 如果网络爬虫的某个节点出现故障,其他节点可以划分其工作并索引特定的网页。

质量:网络搜索能力,为每个用户提供有用的网页。 如果页面包含的内容与用户最近的搜索或用户的兴趣相去甚远,则 Web 搜索必须使用以前的用户体验来预测用户可能喜欢的内容类型

新鲜度:网络爬虫获取和索引每个页面的新副本的能力。 例如,新闻网站每秒更新一次,需要紧急重新索引。 对于此网络爬虫,为此类基于优先级的内容保留单独的优先级队列,以便在短时间内重新索引此类页面。

可扩展性:在早期,引入了新的数据格式、语言和新协议。 网络爬虫处理新的和看不见的数据格式和新协议的能力称为可扩展性,这表明网络爬虫架构必须是模块化的,以便一个模块中的更改不会影响其他模块。 如果网站包含网络爬虫未知的新数据格式,则网络爬虫可以获取数据,但需要人工干预才能添加数据格式详细信息到爬网程序索引模块。

最新更新