Python检测语言ISO代码的方法



我有数百万个句子片段,我正在努力确定每个片段是英语、法语、日语还是德语。有没有python程序可以做到这一点?

s1 = 'This is where lies a person'
s2 = 'ボウリング・フォー・コロンバイン(字幕版)'
s3 = 'Ep. 2448 : épisode du 12 mars 2014 (Plus belle la vie, Saison 10, Vol. 6)
language_of_string(s1) ==> EN
language_of_string(s2) ==> JP
language_of_string(s3) ==> FR

使用源代码尝试langidhttps://github.com/saffsd/langid.py

>>> import langid
>>> langid.classify("This is a test")
('en', 0.99999999099035441)

guess_language

s1 = 'This is where lies a person'
s2 = 'ボウリング・フォー・コロンバイン(字幕版)'
s3 = 'Ep. 2448 : épisode du 12 mars 2014 (Plus belle la vie, Saison 10, Vol. 6)'
import guess_language
print guess_language.guessLanguage(s1)
print guess_language.guessLanguage(s2)
print guess_language.guessLanguage(s3)
en
ja
fr

最新更新