提取维基媒体页面浏览量统计

Wikipedia以每小时一次的文本文件形式提供所有的页面浏览量。(参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)

对于一个项目是需要提取关键字及其相关的2014年的页面浏览量。但是查看一个文件(代表1小时，因此总共有24*365个文件)是~80MB。这是一项手工完成的艰巨任务。

我的问题:1. 有什么方法可以自动下载这些文件吗?(文件结构正确，这可能会有帮助)

下载?当然，这很简单:

wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/

递归wget完成它。注意，这些文件现在已弃用;您可能需要使用http://dumps.wikimedia.org/other/pagecounts-all-sites/。

我参与了这个项目:https://github.com/idio/wikiviews你只要把它命名为python wikiviews 2 2015，它就会下载2015年2月的所有文件，并将它们合并到一个文件中。

相关内容