用于文本分析的英语词典转储



我正在寻找一个英语词典转储,用于Python中的一些文本分析。这将包括一个词及其一些属性(名词/动词、形式、时态,可能还有起源!(。所以,我把这些想象成一个数据框架的列。我已经浏览了许多线索,人们提出了一些来源,但我相信这些来源都不符合上述要求(有些只是单词列表,有些只是有意义的单词(。此外,它们看起来有点不详尽(语料库很小,而我的目标是有大约500000个单词(。是否有来自牛津大学或韦氏词典等权威来源的转储?此外,还有一个PyDictionary模块。有可能从这个模块中获取这样的转储吗?

WordNet是一个由单词、同义词、上义词和亚义词组成的语料库,按同义词集分组,如果您遵循它们的许可证,则可以免费使用。https://wordnet.princeton.edu/.由于这是一个流行的选择,你可以在几乎任何数据格式中找到这个语料库,只需搜索一下。数据库包含155327个单词。

BabelNet是另一个语料库,它将WordNet、维基百科和许多其他来源聚合到一个包含91218220个涵盖多种语言的词汇表定义的数据库中。https://babelnet.org/

如果你想使用牛津词典和韦氏词典,它们都是商业产品,不会随意访问数据库。两者都有API接口,您可以使用注册的API密钥访问这些接口。

最新更新