如何在Google Ngrams中搜索"dated"单词和短语？

我想写一个应用程序，搜索谷歌的Ngram数据，以返回过去比现在更受欢迎的单词和短语，在任意的年份范围内，以任意的百分比。

例如：https://books.google.com/ngrams/graph?content=cowabunga&start=1950&year_ end=2000&语料库=15&平滑=3

理想情况下，我希望能够找到这些单词和短语，而无需预先指定它们。有人能帮我想出一个方法来使用下载的Ngrams数据副本吗？

下载一些n-gram后的第一步是将它们转储到SQLite3数据库中。例如，我提取了以字母"t"开头的1克

要将它们转储到SQLite中，请运行命令sqlite3 1grams.db

sqlite> create table t1grams (ngram text, year integer, match_count integer, volume_count integer);
sqlite> .separator "t"
sqlite> .import googlebooks-eng-all-1gram-20120701-t t1grams

第二步是选择年份范围，称之为YEAR_START和YEAR_END，而您的百分比称之为PERCENT_THRESHOLD。

您的问题归结为一个查询，在该查询中，您选择了这些ngram，使得match_count在YEAR_END中的常见程度比在YEAR_START中低PERCENT_THRESHOLD%。

相关内容

最新更新

热门标签：