网络爬虫 - 网络爬虫分析找到的页面 - web crawler - webcrawler analyse of the found pages 小贝子编程网

我写了一个模拟网络爬虫。我获取了所有网站，但它们在我的硬盘上。现在我想分析它们，这样我就可以编写一个简单的界面，如 www.google.de 并在我获取的页面中搜索信息。

问题是如何以"快速"的方式找出重要信息。所以计算很重要。它可以是实时的，也可以在获取后。我的想法是写一本带有英语单词列表的词典并计算条目......或者该怎么办？我需要讲授如何提取信息并压缩它们。但我不知道去哪里找。

爬虫基于存储链接的 MySQL 的 C++。

我希望我的问题很清楚。 :D

顺便说一句，我的英语不好，但德语:P中有这样的板

信息检索（IR）的科学是一个复杂的科学。

你看过任何标准文本吗？喜欢：

Christopher D. Manning、Prabhakar Raghavan 和 Hinrich Schütze 的信息检索简介（2008年7月7日） - http://www.amazon.com/Introduction-Information-Retrieval-Christopher-Manning/dp/0521865719/ref=sr_1_1?s=books&ie=UTF8&qid=1305573574&sr=1-1

信息检索：实施和评估搜索引擎作者：Stefan Büttcher，Charles L. A. Clarke和Gordon V. Cormack （Jul 23， 2010） - http://www.amazon.com/Information-Retrieval-Implementing-Evaluating-Engines/dp/0262026511/ref=sr_1_3?s=books&ie=UTF8&qid=1305573574&sr=1-3

在亚马逊上搜索"信息检索"了解更多信息。

你也可以看看我对通知系统设计问题的回答，它概述了用于搜索的爬虫网站的一般架构。

网络爬虫 - 网络爬虫分析找到的页面

相关内容

最新更新

热门标签：