真正的双字节编码



存在一些真正的双字节编码(DBCS)?

  • 当然除了UCS-2,UTF-16。
  • 我的意思是编码,它也将 ASCII 保存为 2 个字节。
  • 我的意思是空字节。(00 20 - 空格)
  • 请告诉它是否被使用,是否在标准/使用中过时。

对于 4 字节编码,存在相同的问题(不是 UCS-4、UTF-32)?

谢谢。

当然,有些遗留字符集为每个字符使用两个字节,但这些字符集通常根本不对 ASCII 字符进行编码,旨在补充单字节字符集而不是替换它。 我所知道的所有这些都支持中文、日语和/或韩语表意文字。

周围有很多遗留文档使用这种编码,如果发现在某些地方它们仍在新文档中使用,我不会感到惊讶。

如果您试图确定您的软件是否可以忽略 UTF 以外的多字节字符编码的存在,那么恐怕您不会得到一个简单的答案。 当然,您的软件可以这样做,就像它可以忽略 ISO-8859-15 以外的单字节编码一样,但只有您可以确定如果这样做,您的程序是否会充分实现其目的。

否,没有满足要求列表的双字节字符集。这是因为当时的设计人员使用 7 位 ASCII 作为起点(有利于兼容性),然后在 256 字节值的上半部分放置额外的字符或多字节开始代码。

同样,对于四字节字符集,在 Unicode 甚至尝试提供超过 65536 个字符之前,没有严格的标准。

举个例子,中文 Big5 对字节使用 ASCII 定义0x00到 0x7F,使用 0x81 到 0xFF 作为扩展字符的起始字节,使用 {0x40 到 0x7E,0xA1 到 0xFE} 作为第二个字节。这最多可以编码 20067 个不同的字符。

最新更新