我正在寻找一个示例文本unicode文件(UTF-8),可用于测试与文本编码和解码相关的不同问题,包括:
- ascii字符使用率低,如前32个代码
- BMP外的字符
- NFC相关问题 XML编码/解码问题
主要是我想复制文本到剪贴板,粘贴到应用程序的HTML文本区域,并能够从页面后检索它。
这将使我们能够识别不同的Unicode相关问题,这些问题可能发生在解码、编码甚至数据库级别。
这个页面已经被用来测试web浏览器,有几个脚本文本:https://www.kermitproject.org/utf8.html
哥特语"我能吃玻璃";尤其在BMP: 𐌼𐌰𐌲𐌲𐌻𐌴𐍃𐌹̈𐍄𐌰𐌽,𐌽𐌹𐌼𐌹𐍃𐍅𐌿𐌽𐌳𐌰𐌽𐌱𐍂𐌹𐌲𐌲𐌹𐌸。
规范化表单和XML处理在移动数据时通常没有问题,因此没有专门测试这两个的通用示例。