UTF-8中的tamil字符范围是多少



我不是一个讲塔米尔语的人,但是,对于我正在开发的简单NLP应用程序,我必须检测python字符串中的字符(与数字、标点符号、HTML标记混合(是否是塔米尔语。如果没有,我只需要删除这个字符。这个概念很简单,但即使经过大量搜索,我也无法找到UTF-8中的tamil字符范围。需要一些帮助。它是一个连续的数字块吗?比如用ASCII大写字母表示的65到90?还是我必须开发一些更复杂的东西来检查每个角色?

泰米尔语维基百科

Unicode范围:U+0B80–U+0BFF

最新更新