如何在Google Ngrams中搜索"dated"单词和短语?



我想写一个应用程序,搜索谷歌的Ngram数据,以返回过去比现在更受欢迎的单词和短语,在任意的年份范围内,以任意的百分比。

例如:https://books.google.com/ngrams/graph?content=cowabunga&start=1950&year_ end=2000&语料库=15&平滑=3

理想情况下,我希望能够找到这些单词和短语,而无需预先指定它们。有人能帮我想出一个方法来使用下载的Ngrams数据副本吗?

下载一些n-gram后的第一步是将它们转储到SQLite3数据库中。例如,我提取了以字母"t"开头的1克

要将它们转储到SQLite中,请运行命令sqlite3 1grams.db

sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams

第二步是选择年份范围,称之为YEAR_STARTYEAR_END,而您的百分比称之为PERCENT_THRESHOLD

您的问题归结为一个查询,在该查询中,您选择了这些ngram,使得match_countYEAR_END中的常见程度比在YEAR_START中低PERCENT_THRESHOLD%。

相关内容

  • 没有找到相关文章

最新更新