"regular"英语单词列表



所以我找到了这 3 个资源:

  • 479k 英语单词
  • 来自维基词典的100k个最受欢迎的英语单词
  • 谷歌最常用的 10,000 个单词

我不介意在 479k 个单词的列表中有像bu这样的单词(我从未见过的单词),因为这包含超级晦涩的东西。但我惊讶地发现,维基词典的常用列表包括这些词:

b
be
bel
bl
bleu
bu
eu
l
lb
le
leu
lu
lub

此外,维基列表不包括这些词!

lube
neg
tab

也就是说,维基列表中有很多词我不认为是"常规词",并且有很多维基列表没有的"常规词"。

所以我的问题是,在公共领域的网络上是否有可供下载的"常规"单词列表。通过常规,我只是指您通过阅读书籍等学习的单词,而不是像leubl之类的单词,由于某种原因在wiki精选列表中。

这适用于自动完成组件。

似乎您已经知道"常规"没有操作定义。这是因为您需要根据项目的需求自行定义它。表情符号是文字吗?如果您正在分析Twitter数据,那么将它们包括在内可能是有益的。

帮助您为项目定义"常规"的几个起点是:

  • 频率指标(这个词是否至少在语料库中出现XX%的时间)
  • 来源之间的协议(出现在所有三个单词列表中的单词)
  • 人类的判断(自己做,或者使用MTURK并问"这是一个词,是还是不是?

相关内容

  • 没有找到相关文章

最新更新