如何从网站收集数据



前言:我有广泛的大学知识,对几种语言(c++, VB, c#,Java,许多web语言)有一定的了解,所以你可以选择你喜欢的语言。

我想做一个android应用程序,比较数字,但为了做到这一点,我需要一个数据库。我是一个人的团队,数据每两周更新一次,所以我想从一个更新的wiki上获取这些数据。

所以我的问题是:我如何从使用上述一种语言的网站访问信息?

我理解的问题是:一些实体每隔一周生成一个数据集(即数字),您需要下载该数据集进行处理(例如排序)。

理想情况下,维护wiki的网站应该提供一个服务,比如RESTful接口,以便轻松地收集数据。如果是这样的话,我会选择任何能够提供简单的HTTP请求操作的语言。响应,并使您的数据操作变得容易。正如之前的一个帖子所说,Java会很好地工作。

如果你被wiki页面困住了,你有几个选择。您可以解析浏览器接收到的HTML (Perl是一种很好的语言)。或者您可以使用为此目的构建的工具,如前面提到的Jsoup。

你的问题还提到了一些实现细节,比如需要一个数据库。显然,没有足够的上下文信息让我知道这是否是最佳的,所以我不会解决这方面的问题。

http://jsoup.org/是一个很好的Java工具,用于访问html页面上的内容

考虑https://scraperwiki.com/-这是一个用户可以贡献刮刀的网站。只要你让你的刮刀公开,它就是免费的。scraper的结果以csv和JSON的形式公开。

如果你不知道"刮刀"是什么,谷歌一下"屏幕抓取"——对于程序员来说,这是一个悠久而令人沮丧的传统,自从网络计算开始以来,他们一直在处理与你相同的问题。

您可以查看:http://web-harvest.sourceforge.net/

对于Python来说,BeautifulSoup是最宽容的HTML解析器之一。文档还列出了Ruby和Java中类似的库,因此您可能会在其中找到相关的内容。

相关内容

  • 没有找到相关文章

最新更新