简单文本文件的编码是如何存储的?
在电子邮件中有一个标题
Content-Type: text/plain; charset="UTF-8"
在 html 中,我们有一个元标记
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
这给我留下了一个问题,即文本编辑器如何知道使用什么编码,因为我们没有像使用 html 文件那样在文本文件中显式设置它。
如果是标准的复杂格式,如.docx
或.pdf
编码很可能作为某种属性存储在那里。
如果是一个简单的文件,如.txt
,.csv
编码将不会存储在任何地方。文本编辑器将使用启发式来确定用于保存文件的编码,但这只是一个猜测。
阅读更多:
- 如何检测文件的编码?
- 启发式检测编码