用于测试Unicode相关问题的Unicode示例文本文件



我正在寻找一个示例文本unicode文件(UTF-8),可用于测试与文本编码和解码相关的不同问题,包括:

  • ascii字符使用率低,如前32个代码
  • BMP外的字符
  • NFC相关问题
  • XML编码/解码问题

主要是我想复制文本到剪贴板,粘贴到应用程序的HTML文本区域,并能够从页面后检索它。

这将使我们能够识别不同的Unicode相关问题,这些问题可能发生在解码、编码甚至数据库级别。

这个页面已经被用来测试web浏览器,有几个脚本文本:https://www.kermitproject.org/utf8.html

哥特语"我能吃玻璃";尤其在BMP: 𐌼𐌰𐌲𐌲𐌻𐌴𐍃𐌹̈𐍄𐌰𐌽,𐌽𐌹𐌼𐌹𐍃𐍅𐌿𐌽𐌳𐌰𐌽𐌱𐍂𐌹𐌲𐌲𐌹𐌸。

规范化表单和XML处理在移动数据时通常没有问题,因此没有专门测试这两个的通用示例。

最新更新