HTML字符集和编码

我需要构建一个本地化为非拉丁语言的JSP应用程序。JSP页面包含从数据库(MySQL)检索一些显示元素和从资源包(其内容用Unicode编写的属性文件，我也尝试过使用UTF-8)检索其他显示元素的标记。

我认为，问题在于从资源包返回的字符串似乎将unicode/UTF-8码点的每个字节放在自己的字符串字符中。例如/u0620在返回的字符串中占用两个字符，第一个字符是0x06，第二个字符是0x20。从资源包中检索到的字符串的大小是原来的两倍。

我的问题是在属性文件本身还是在resourceBundle中?

如果使用UTF-8，则UTF-8字符实际上是 2个字节。编程语言将其处理为两个字节还是一个字符对于实际代码来说并不重要。

同时，避免使用UTF-16或其他形式的Unicode。UTF-8是目前唯一"合适"的处理方式。

另外，正如bmargulies指出的那样，您可能希望使用pageEncoding="utf-8"

相关内容