所以我找到了这 3 个资源:
- 479k 英语单词
- 来自维基词典的100k个最受欢迎的英语单词
- 谷歌最常用的 10,000 个单词
我不介意在 479k 个单词的列表中有像b
和u
这样的单词(我从未见过的单词),因为这包含超级晦涩的东西。但我惊讶地发现,维基词典的常用列表包括这些词:
b
be
bel
bl
bleu
bu
eu
l
lb
le
leu
lu
lub
此外,维基列表不包括这些词!
lube
neg
tab
也就是说,维基列表中有很多词我不认为是"常规词",并且有很多维基列表没有的"常规词"。
所以我的问题是,在公共领域的网络上是否有可供下载的"常规"单词列表。通过常规,我只是指您通过阅读书籍等学习的单词,而不是像leu
和bl
之类的单词,由于某种原因在wiki精选列表中。
这适用于自动完成组件。
似乎您已经知道"常规"没有操作定义。这是因为您需要根据项目的需求自行定义它。表情符号是文字吗?如果您正在分析Twitter数据,那么将它们包括在内可能是有益的。
帮助您为项目定义"常规"的几个起点是:
- 频率指标(这个词是否至少在语料库中出现XX%的时间)
- 来源之间的协议(出现在所有三个单词列表中的单词)
- 人类的判断(自己做,或者使用MTURK并问"这是一个词,是还是不是?