正确的 UTF-8 编码文件在记事本++中应该如何显示



我正在使用一些平面文件集成数据。我正在从业务合作伙伴的 MS SQL 导出中获取 FTP 作为.csv文件交付的平面文件。

我要求他将其编码为 UTF-8(仅使用我认为的标准)。现在我可以在他的文件中看到很多 UTF-8 字节,例如"&# 2 3 3;"(没有空格)当我在 Notespad++ 中打开它(或使用我的"ETL"工具)时,可以被视为纯文本。

在我要求他将其修复为正确的 UTF-8 之前,我想了解这个问题以及我的主张是否真的正确?

当我在记事本++中打开特殊字符而不是纯文本UTF-8代码时,它们不应该显示为特殊字符吗?

任何帮助都非常感谢:))

干杯马丁

é是一个HTML实体。出于某种原因,文本是HTML格式的,我不会将其视为"纯文本"/平面文件。该文件可能会也可能不会以 UTF-8 编码,除此之外,我们不知道所提供的信息。

包含以 UTF-8 编码的"特殊字符"(指非 ASCII 字符)的文件在文本编辑器中打开,该编辑器将文件正确解释为 UTF-8,看起来与它应该看起来像的文本完全相同,例如:

正式名称は、ISO/IEC 10646では "UCS Transformation Format 8"、Unicodeでは "Unicode Transformation Format-8" という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。

把它放在一个文件中,保存为 UTF-8,在另一个应用程序中以 UTF-8 打开它,这就是文本应该的样子。

最新更新