对于NER(名称实体识别)工具,如DBpedia,Zemanta,OpenCalais,Alchemy等,他们使用的算法是什么,是否有首选或通用的算法可以使用?
检查 Soundex - 一个非常好且众所周知的名称匹配算法(因为它们在英语中听到)。
我上次使用双元音,它使用启发式方法尝试猜测名称所属的原始语言,从而猜测它应该导致发音。
但最终,这种认可并不像人们想象的那么好。大多数语言都有音译为拉丁语的规则(也称为韩语的罗马化),因此您可能需要先检查一下。