我有几个应用程序,通过应用MD5等加密哈希来创建唯一(概率很高(,人类可读的校验和或数字签名,然后将生成的位与算术编码器一起使用从列表中选择单词。 我一直在使用/usr/share/dict/words
,但最近一位客户(正确地(抱怨收到一份包含冒犯性词或触发词的文档。(更多细节在我的答案中生成用户友好代码(。
对于这个应用程序,长列表很重要,因为它们避免了重复---我使用的列表有数万个单词。
有谁知道如何从这样的列表中删除冒犯性和触发词,或者在哪里可以找到无害的词列表?
一种可能性是ENABLE单词列表,由Words with Friends和其他一些游戏使用。 他们尽量避免有争议的词(选择你最喜欢的,你不会在那里找到它们!-(它在公共领域,所以你可以在这里和那里找到它。 它大约172,000字。 这是我找到它的一个地方:http://www.greenworm.net/sites/default/files/gw-assets/enable1-wwf-v4.0-wordlist.txt
此外,Scrabble有不同的列表 - 拥有游戏的公司有"过滤"列表,而俱乐部使用未过滤的列表进行竞争。 我不想发布指向冒犯性材料的链接,但是如果您谷歌"西雅图拼字游戏俱乐部清除的单词",您可能会找到从顽皮列表中删除的单词列表以生成漂亮的列表。 如果您在该列表中找到所有投诉的单词,则可以将其用作过滤器。