Swift utf16数据问题划分成块



我可以请求帮助将UTF-16数据流分割成块吗?

很不幸,很难找到字母的边界。

感谢任何帮助,我已经花了几个晚上在这上面,我很想了解这个问题。

Java版本,工作得很好(是否有任何自动纠正,即使分割前两个字节输出给出正确的字符串作为part2?):

public static void main(String[] args) throws Exception {
    String encoding = "UTF-16";
    byte[] data = "ČŘŠŤĎŽŇčřšťďňě".getBytes(encoding);
    System.out.println("Data size: "+data.length);
    for(int index=2; index<= data.length / 2; index+=2)
    {
        byte[] part1 = java.util.Arrays.copyOfRange(data, 0, index);
        byte[] part2 = java.util.Arrays.copyOfRange(data, index, data.length);
        assert(part1.length + part2.length == data.length);
        System.out.println("--------------------- "+index);
        System.out.println(new String(part1, encoding));
        System.out.println(new String(part2, encoding));
    }
}
Java输出:

Data size: 30
--------------------- 2
ČŘŠŤĎŽŇčřšťďňě
--------------------- 4
Č
ŘŠŤĎŽŇčřšťďňě
--------------------- 6
ČŘ
ŠŤĎŽŇčřšťďňě
--------------------- 8
....

Swift (Xcode 8 beta 6, Swift 3) playground code:

import Foundation
let encoding = String.Encoding.utf16
let data = "ČŘŠŤĎŽŇčřšťďňě".data(using: encoding)!
print("Data size: (data.count)")
for index in stride(from: 2, to: data.count/2, by: 2)
{
    let part1 = data.subdata(in: 0..<index)
    let part2 = data.subdata(in: index..<data.count)
    assert(part1.count + part2.count == data.count)

    print("--------------------- (index)")
    print(String(data: part1, encoding: encoding))
    print(String(data: part2, encoding: encoding))
}
迅速输出:

    Data size: 30
    --------------------- 2
    Optional("")
    Optional("ఁ堁态搁ก紁䜁ഁ夁愁攁༁䠁ᬁ")
    --------------------- 4
    Optional("Č")
    Optional("堁态搁ก紁䜁ഁ夁愁攁༁䠁ᬁ")
    --------------------- 6
    Optional("ČŘ")
    Optional("态搁ก紁䜁ഁ夁愁攁༁䠁ᬁ")
    --------------------- 8
    Optional("ČŘŠ")
    Optional("搁ก紁䜁ഁ夁愁攁༁䠁ᬁ")
    --------------------- 10
    Optional("ČŘŠŤ")
    Optional("ก紁䜁ഁ夁愁攁༁䠁ᬁ")
    --------------------- 12
    Optional("ČŘŠŤĎ")
    Optional("紁䜁ഁ夁愁攁༁䠁ᬁ")

如果我改变swift编码为String.Encoding。utf8,输出是预期的,但对于utf16和utf32,我不明白发生了什么。

谢谢。

简短的回答:使用utf16LittleEndianutf16BigEndian编码要获得预期的结果:

<>之前数据大小:28--------------------- 2可选的("Č")可选("ŘŠŤĎŽŇčřšťďňě")--------------------- 4可选("ČŘ")可选("ŠŤĎŽŇčřšťďňě")--------------------- 6可选("ČŘŠ")可选("ŤĎŽŇčřšťďňě")…之前

较长答案: utf16编码将字符串转换为小端字节UTF-16数据,前面加上字节顺序标记:

let data = "abc".data(using: .utf16)!
print(data as NSData) // <fffe6100 62006300>

当数据被分成两部分时,第二部分没有前导字节顺序标记:

let part1 = data.subdata(in: 0..<4)
let part2 = data.subdata(in: 4..<8)
print(part1 as NSData, part2 as NSData) // <fffe6100> <62006300>

没有字节顺序标记的部分显然转换错误现在假定的是大端序字节顺序:

print(String(data: part1, encoding: .utf16)) // Optional("a")
print(String(data: part2, encoding: .utf16)) // Optional("戀挀")
print(String(data: part2, encoding: .utf16LittleEndian)) // Optional("bc")

相关内容

  • 没有找到相关文章

最新更新