Wikipedia以每小时一次的文本文件形式提供所有的页面浏览量。(参见http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)
对于一个项目是需要提取关键字及其相关的2014年的页面浏览量。但是查看一个文件(代表1小时,因此总共有24*365个文件)是~80MB。这是一项手工完成的艰巨任务。
我的问题:1. 有什么方法可以自动下载这些文件吗?(文件结构正确,这可能会有帮助)
下载?当然,这很简单:
wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/
递归wget完成它。注意,这些文件现在已弃用;您可能需要使用http://dumps.wikimedia.org/other/pagecounts-all-sites/。
我参与了这个项目:https://github.com/idio/wikiviews你只要把它命名为python wikiviews 2 2015
,它就会下载2015年2月的所有文件,并将它们合并到一个文件中。