用Java从字节中解码朝鲜语字符串



我在Java中转换字节数组朝鲜语字符时遇到了困难。维基百科指出,不知何故,每个字符都使用了3个字节,但并不是所有的比特都被考虑在内。

有没有一种简单的方法来转换这个非常特别的。。。总体安排我不想写循环和计数器来跟踪位和字节,因为这会变得一团糟,我无法想象没有简单的解决方案。一个原生的java库将是完美的,或者可能有人想出了一些聪明的比特移位逻辑。

更新2:@DavidConrad在下面发布了一个有效的解决方案,我错误地认为它是UTF-8编码的。

更新:

这些字节

[91, -80, -8, -69, -25, 93, 32, -64, -78, -80, -18, -73, -50]

应该输出这个:

[공사] 율곡로

但是使用

new String(shortStrBytes,"UTF8"); // or
new String(shortStrBytes,StandardCharsets.UTF_8);

把他们变成这样:

[����] �����
The returned string has 50% more chars

由于您在问题中添加了字节,我做了一些研究和实验,我相信您的文本编码为EUC-KR。当我把它们解释为那个编码时,我得到了预期的韩语字符。

// convert bytes to a Java String
byte[] data = {91, -80, -8, -69, -25, 93, 32, -64, -78, -80, -18, -73, -50};
String str = new String(data, "EUC-KR");
// now convert String to UTF-8 bytes
byte[] utf8 = str.getBytes(StandardCharsets.UTF_8);
System.out.println(HexFormat.ofDelimiter(" ").formatHex(utf8));

这将打印以下十六进制值:

5b ea b3 b5 ec 82 ac 5d 20 ec 9c a8 ea b3 a1 eb a1 9c

这是这些朝鲜语字符的正确UTF-8编码,如果有支持它们的终端,打印字符串也应该正确显示它们。

您应该使用StandardCharsets.UTF_8。从String转换为byte[],反之亦然:

import java.util.*;
import java.nio.charset.StandardCharsets;
public class Translater {
public static String translateBytesToString(byte[] b) {
return new String(b, StandardCharsets.UTF_8);
}
public static byte[] translateStringToBytes(String s) {
return s.getBytes(StandardCharsets.UTF_8);
}
public static void main(String[] args) {
final String STRING = "[공사] 율곡로";
final byte[] BYTES = {91, -22, -77, -75, -20, -126, -84, 93, 32, -20, -100, -88, -22, -77, -95, -21, -95, -100};

String s = translateBytesToString(BYTES);
byte[] b = translateStringToBytes(STRING);

System.out.println("String: " + translateBytesToString(BYTES));
System.out.print("Bytes: ");
for (int i=0; i<b.length; i++)
System.out.print(b[i] + " ");
}
}

最新更新