统计外语中存在的字符数



有什么最佳方法可以实现非英文字母的字符计数吗?例如,如果我们用英语中的单词"Mother">,它是一个由6个字母组成的单词。但是如果你输入相同的单词(மதர்)在泰米尔语中,它是一个三个字母的单词(ம+த+ர்)但是最后一封信(ர்)将被视为两个字符(ர+ஂ=ர்)通过系统。那么,有没有办法计算真实字符的数量呢?

一条线索是,如果我们将键盘上的光标移动到单词中(மதர்),根据系统的考虑,它只会通过3个字母,而不会变成4个字符,所以有什么方法可以通过使用它找到解决方案吗?如有任何帮助,我们将不胜感激。。。

更新

吃完午饭回来=)恐怕前一种语言对任何外语都不太好用所以我添加了另一个可能的方式

var UnicodeNsm = [Array 1280] //It holds all escaped Unicode Non Space Marks
function countNSMString(str) {
var chars = str.split("");
var count = 0;
for (var i = 0,ilen = chars.length;i<ilen;i++) {
if(UnicodeNsm.indexOf(escape(chars[i])) == -1) {
count++;
}
}
return count;
}
var English = "Mother";  
var Tamil = "மதர்";
var Vietnamese = "mẹ"
var Hindi = "मां"
function logL (str) {    
console.log(str + " has " + countNSMString(str) + " visible Characters and " + str.length + " normal Characters" ); //"மதர் has 3 visible Characters"
}
logL(English) //"Mother has 6 visible Characters and 6 normal Characters"
logL(Tamil) //"மதர் has 3 visible Characters and 4 normal Characters"
logL(Vietnamese) //"mẹ has 2 visible Characters and 3 normal Characters"
logL(Hindi) //"मां has 1 visible Characters and 3 normal Characters"

因此,这只是检查字符串中是否有Unicode NSM字符,并忽略计数,这应该适用于大多数语言,而不仅仅是泰米尔语,具有1280个元素的阵列不应该是性能问题

这是一个包含Unicode NSM的列表http://www.fileformat.info/info/unicode/category/Mn/list.htm

这是根据JSBin


在对字符串操作进行了一些实验后String.indexOf为返回相同

"ர்""ர"意思是
"ர்ரர".indexOf("ர்") == "ர்ரர".indexOf("ர" + "்") //true
"ர்ரர".indexOf("ர") == "ர்ரர".indexOf("ர" + "ர")//错误

我抓住这个机会,尝试了类似的东西

//ர்
var char = "ரர்ர்ரர்்";
var char2 = "ரரர்ர்ரர்்";    
var char3 = "ர்ரர்ர்ரர்்";
function countStr(str) {
var  chars = str.split("");
var count = 0;
for(var i = 0, ilen = chars.length;i<ilen;i++) {
var chars2 = chars[i] + chars[i+1];   
if (str.indexOf(chars[i]) == str.indexOf(chars2))
i += 1;
count++;
}
return count;
}

console.log("--");
console.log(countStr(char)); //6
console.log(countStr(char2)); //7
console.log(countStr(char3)); //7

这似乎适用于上面的字符串,可能需要一些调整,因为我对编码之类的东西一无所知,但也许这是一个可以从开始的点

这是JSBin

您可以使用以下函数忽略计数计算中的组合标记:

function charCount( str ) {
var re = /[u0300-u036fu1dc0-u1dffu20d0-u20ffufe20-ufe2fu0b82u0b83u0bbeu0bbfu0bc0-u0bc2u0bc6-u0bc8u0bca-u0bcdu0bd7]/g
return str.replace( re, "").length;
}
console.log(charCount('மதர்'))// 3
//More tests on random Tamil text:
//Paint the text character by character to verify, for instance 'யெ' is a single character, not 2
console.log(charCount("மெய்யெழுத்துக்கள்")); //9
console.log(charCount("ஒவ்வொன்றுடனும்")); //8
console.log(charCount("தமிழ்")); //3
console.log(charCount("வருகின்றனர்.")); //8
console.log(charCount("எழுதப்படும்")); //7

泰米尔语的符号和标记不会与unicode中的目标字符一起组成单个字符,因此规范化没有帮助。我已经手动添加了所有泰米尔语组合标记或符号到正则表达式,但它也包括正常组合标记的范围,因此无论标准化形式如何,charCount("ä")都是1

最新更新