正确的 UTF-8 编码文件在记事本++中应该如何显示

我正在使用一些平面文件集成数据。我正在从业务合作伙伴的 MS SQL 导出中获取 FTP 作为.csv文件交付的平面文件。

我要求他将其编码为 UTF-8（仅使用我认为的标准）。现在我可以在他的文件中看到很多 UTF-8 字节，例如"&# 2 3 3;"（没有空格）当我在 Notespad++ 中打开它（或使用我的"ETL"工具）时，可以被视为纯文本。

在我要求他将其修复为正确的 UTF-8 之前，我想了解这个问题以及我的主张是否真的正确？

当我在记事本++中打开特殊字符而不是纯文本UTF-8代码时，它们不应该显示为特殊字符吗？

任何帮助都非常感谢:)）

干杯马丁

é是一个HTML实体。出于某种原因，文本是HTML格式的，我不会将其视为"纯文本"/平面文件。该文件可能会也可能不会以 UTF-8 编码，除此之外，我们不知道所提供的信息。

包含以 UTF-8 编码的"特殊字符"（指非 ASCII 字符）的文件在文本编辑器中打开，该编辑器将文件正确解释为 UTF-8，看起来与它应该看起来像的文本完全相同，例如：

正式名称は、ISO/IEC 10646では "UCS Transformation Format 8"、Unicodeでは "Unicode Transformation Format-8" という。両者はISO/IEC 10646とUnicodeのコード重複範囲で互換性がある。RFCにも仕様がある。

把它放在一个文件中，保存为 UTF-8，在另一个应用程序中以 UTF-8 打开它，这就是文本应该的样子。

相关内容

最新更新

热门标签：