JavaScript 相当于 Java 的 String.getBytes(StandardCharsets.UTF_8)



我有以下Java代码:

String str = "u00A0";
byte[] bytes = str.getBytes(StandardCharsets.UTF_8);
System.out.println(Arrays.toString(bytes));

输出如下字节数组:

[-62, -96]

我试图在Javascript中获得相同的结果。我已经尝试了解决方案张贴在这里:

https://stackoverflow.com/a/51904484/12177456

function strToUtf8Bytes(str) {
const utf8 = [];
for (let ii = 0; ii < str.length; ii++) {
let charCode = str.charCodeAt(ii);
if (charCode < 0x80) utf8.push(charCode);
else if (charCode < 0x800) {
utf8.push(0xc0 | (charCode >> 6), 0x80 | (charCode & 0x3f));
} else if (charCode < 0xd800 || charCode >= 0xe000) {
utf8.push(0xe0 | (charCode >> 12), 0x80 | ((charCode >> 6) & 0x3f), 0x80 | (charCode & 0x3f));
} else {
ii++;
// Surrogate pair:
// UTF-16 encodes 0x10000-0x10FFFF by subtracting 0x10000 and
// splitting the 20 bits of 0x0-0xFFFFF into two halves
charCode = 0x10000 + (((charCode & 0x3ff) << 10) | (str.charCodeAt(ii) & 0x3ff));
utf8.push(
0xf0 | (charCode >> 18),
0x80 | ((charCode >> 12) & 0x3f),
0x80 | ((charCode >> 6) & 0x3f),
0x80 | (charCode & 0x3f),
);
}
}
return utf8;
}
console.log(strToUtf8Bytes("hu00A0i"));

但是这给出了这个(这是https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Global_Objects/Uint8Array):

)
[194, 160]

这对我来说是一个问题,因为我正在使用gral js引擎,并且需要将数组传递给期望byte[]的java函数,因此数组中的任何值>127将导致错误,如下所示:

https://github.com/oracle/graal/issues/2118

注意我还尝试了TextEncoder类而不是strToUtf8Bytes函数,如下所述:

java string.getBytes("UTF-8") javascript等效

,但它给出了与上面相同的结果。

是否有别的东西我可以在这里尝试,这样我就可以让JavaScript生成相同的数组作为Java?

以字节为单位的结果是相同的,JS只是默认为unsigned字节。Uint8Array中的U代表"unsigned";有符号的变体称为Int8Array

转换很简单:只需将结果传递给Int8Array构造函数:

console.log(new Int8Array(new TextEncoder().encode("u00a0"))); // Int8Array [ -62, -96 ]

最新更新