如何在python中逐个字符遍历unicode泰米尔语单词

我想知道Unicode字符串(Tamil)中有多少个字符，然后检查character1和character2是否有特殊出现。
我能够将单词分成字符，但我不知道如何使用单词长度逐个字符遍历它们。

示例:word: "எஃகு".
它应该不返回任何字符为3，并且我应该能够将word[0]打印为' '，word[1]打印为'ஃ'， word[2]打印为'கு'。

    if word[0] is a vowel:
        if word[1] is "ஃ":
           then print word[0]+word[1]+word[3] (as எஃகு)
        else:
           print word[0]

我想遍历没有字符，如果no.of.char是3，那么I =0应该帮助我处理' '。
我看到了许多与Unicode字符处理和长度处理相关的问题。但它们要么返回字节长度，要么给出不同的结果。所以我很困惑。

我用来按字符分割它们的代码:

    for line in f.readlines():
       letters = utf8.get_letters(line)
       for letter in letters:
          ff.write(unicode(letter))
          ff.write(' ')

示例输入文件:

அன்று
அதாவது
அஃதான்று

示例输出文件:

ன் று
www.தா www.து
ஃ தா ன் று

Package

pip install Open-Tamil

代码

from tamil import utf8
string = u"எஃகு"
letters = utf8.get_letters(string)
print(len(letters))
# 3. Not 4. 
print(letters)
# [u'u0b8e', u'u0b83', u'u0b95u0bc1']
for letter in letters:
    print(letter)
# எ
# ஃ
# கு

相关内容

最新更新

热门标签：