我想写一个应用程序,搜索谷歌的Ngram数据,以返回过去比现在更受欢迎的单词和短语,在任意的年份范围内,以任意的百分比。
例如:https://books.google.com/ngrams/graph?content=cowabunga&start=1950&year_ end=2000&语料库=15&平滑=3
理想情况下,我希望能够找到这些单词和短语,而无需预先指定它们。有人能帮我想出一个方法来使用下载的Ngrams数据副本吗?
下载一些n-gram后的第一步是将它们转储到SQLite3数据库中。例如,我提取了以字母"t"开头的1克
要将它们转储到SQLite中,请运行命令sqlite3 1grams.db
sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams
第二步是选择年份范围,称之为YEAR_START
和YEAR_END
,而您的百分比称之为PERCENT_THRESHOLD
。
您的问题归结为一个查询,在该查询中,您选择了这些ngram
,使得match_count
在YEAR_END
中的常见程度比在YEAR_START
中低PERCENT_THRESHOLD
%。