我需要 unicode 来识别不同的书写系统吗?



无论它是否最佳,我都在尝试使用其十六进制代码来识别特定字符。(有没有更好的方法来识别字母、阿拉伯、中文或日语字符?

http://play.golang.org/p/b81_rgXr3G

   fmt.Printf("%x n", "가") //eab080
   fmt.Printf("%x n", "ㅎ") //e3858e

所以在韩语中确实如此EAB080

那么我的问题是我们是否有每种语言的十六进制边界的表格或图表?

我的意思是,对于英语

 fmt.Printf("%x n", "A") //41
 fmt.Printf("%x n", "z") //7a

然后 41 <7a

正如你在上面看到的,字母表的界限在 41 和 7a 之间。我正在为另一种不在字母表中的书写系统尝试同样的事情。

我需要 unicode 来识别不同的书写系统吗?Unicode 标准库似乎只提供编码和解码英文字母。

提前谢谢。

不,我们没有每种语言的十六进制边界的任何表格或图表。有一些关于通常在各种语言中使用的字符的数据。

这回答了提出的问题,但您应该考虑这是否是您真正的问题。这个问题涉及书写系统、字母表和语言,就好像它们是一回事;它们是不同的概念。你应该定义你的实际问题:你真正需要什么信息?在某些语言的文本中,可能会出现任何 Unicode 字符。

顺便说一下,英语也有(至少在某些语言形式中)如未婚夫、合作、rôle、anæmia、belovèd 等词。

最新更新