NLTK与其他语言同步



现在我正在尝试比较两个不同文件中的单词,一个是英文,一个为中文。我必须确定是否有任何英语单词与汉语单词相关,如果它们是,它们是相等的还是一个是另一个的超名。我可以在英语中使用同义词,但我能对中文单词做些什么呢?

看起来有一个中文(cmn)WordNet可以从台湾的一所大学获得:http://casta-net.jp/~栗夜叉/multi/。如果这个WordNet与英语WordNet的格式相同,那么你可能可以使用WordNetCorpusReader(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader)在NLTK中导入普通话数据。我不知道你是如何在这两个数据集之间进行比对或翻译的,但假设你能将英语映射到汉语,这应该有助于你弄清楚两个英语单词之间的关系与两个汉语单词之间的联系是如何比较的。请注意,如果您的数据使用简化脚本,那么在使用此cmn WordNet之前,您可能还需要转换为传统脚本。

最新更新