我试图建立一个与地震有关的文档语料库。我想下载所有与那个事件有关的新闻文章。我的问题是,使用谷歌搜索(stackoverflow.com/questions/…)会对现在相关的内容产生偏见。相反,我想要所有的文章,无论时间或相关性。
问题是Google正在试图猜测用户输入您的查询的最相关的搜索结果是什么,而您对所有这些都感兴趣。
在这种情况下,报纸文章数据库比谷歌更适合为您服务。如果你目前在一所大学就读,向你的图书馆索取这类资源。如果你可以访问这样一个数据库,你将能够搜索包含给定关键字的每一篇文章,一些搜索表单甚至可以让你按出版商、日期、地理位置等进行过滤。
尤里卡。Cc就是这样一个数据库的例子。
一些报纸的网站会让你访问他们的文章存档。《纽约时报》就是其中之一。
这是在他们的文章数据库中搜索"earthquake"的结果。
关于报纸文章数据库的更多信息