给定一个字符(字符串中的一个字母),我如何识别它属于哪种语言?选项包括:英语、俄语、希伯来语。
背景:此字符由用户在表单中输入,然后存储在数据库中。
例如,它可以是以下单词之一的第一个字母:
- 你好
- Привет
- שלום
UNICODE标准分为"块"。去这里:
http://www.unicode.org/charts/
http://en.wikipedia.org/wiki/Unicode_block
http://www.unicode.org/versions/Unicode6.0.0/
并查找每种语言的 Unicode 块(间隔)。
我的猜测:
- 英语
- 希伯来语
- 俄语
所以对你来说,这是每个字符(unicode 序号值)的简单数字比较的问题。很简单。