C 语言如何将字符字面转换为数字,反之亦然



我最近一直在研究C/低级编程/系统设计。作为一名经验丰富的 Java 开发人员,我仍然记得我通过 SUN Java 认证的目的,并质疑 Java 中的字符类型是否可以转换为整数以及如何做到这一点。这就是我所知道和记住的 - 根据选角的不同,最多 255 的数字可以被视为数字或字符。

了解 C 我想了解更多,但我发现很难找到正确的答案(尝试谷歌搜索,但我通常会得到 gazilion 结果如何在代码中将 char 转换为 int)它是如何工作的,C 编译器/系统调用将数字转换为字符,反之亦然。

正在存储内存中的 AFAIK 编号。因此,让我们假设在存储单元中存储值 65(即字母"A")。所以存储了一个值,突然 C 代码想要获取它并存储到char变量中。目前为止,一切都好。然后我们为给定的字符参数发出带有%c格式的printf过程。

这就是魔术发生的地方 -printf如何确切地知道值为 65 的字符是字母"A"(并且应将其显示为字母)。它是原始 ASCII 范围的基本符号(不是一些有趣的表情符号风格的 UTF 符号)。它是否调用外部 STD/库/系统调用来查询编码系统?我喜欢一些细节,低级的解释,或者至少链接到可信的来源。

C 语言在很大程度上与字符的实际编码无关。它有一个源字符集,它定义了编译器如何处理源代码中的字符。因此,例如,在旧的IBM系统上,源字符集可能是EBCDIC,其中65不表示"A"。

C 还有一个执行字符,它定义了正在运行的程序中字符的含义。这是与您的问题更相关的一个。但它并没有真正影响 I/O 函数的行为,如printf.相反,它会影响ctype.h函数的结果,例如isalphatoupper.printf只是将其视为一个char大小的值,由于使用默认参数提升的可变参数函数,它作为int接收(任何小于int的类型都提升为intfloat提升为double)。 然后printf将相同的值打乱到stdout文件中,然后这是其他人的问题。

如果源字符集和执行字符集不同,则编译器将执行适当的转换,以便在正在运行的程序中将源标记'A'作为执行字符集的相应A进行操作。两个字符集的实际编码选择,即。无论是ASCII还是EBCDIC或其他东西都是实现定义的。

对于控制台应用程序,接收字符值的控制台或终端必须在字体的字形表中查找它以显示字符的正确图像。

字符常量的类型为int。除了无论char是有符号还是无符号都是实现定义的这一事实之外,char大多可以被视为窄整数。两者之间唯一需要的转换是缩小或加宽(可能还有符号扩展)。

"printf如何确切地知道值为 65 的字符是字母'A'(并且应该将其显示为字母)。

它通常不需要,甚至不需要。甚至编译器在C语言片段中看不到'A'字符

char a = 'A';
printf("%c", c);

如果源字符集和执行字符集同时兼容 ASCII 或 ASCII,就像现在通常的情况一样,编译器将在字节流中具有三元组 39、65、39 - 或者更确切地说是00100111 01000001 00100111。它的解析器已经按照一个规则进行了编程,即两个00100111之间的东西是字符文字,并且由于01000001不是魔术值,因此它被按原样转换为最终程序。

C程序在运行时一直处理01000001(尽管有时它可能01000001零扩展到int,例如 在 32 位系统上00000000 00000000 00000000 01000001;添加前导零不会更改其数值)。在某些系统上,printf(或者更确切地说是底层内部文件例程)可能会字符值01000001转换为其他内容。但在大多数系统上,01000001将按原样传递给操作系统。然后在操作系统上 - 或者可能在从操作系统接收输出的 GUI 程序中 - 将希望显示该字符,然后查询显示字体以获取对应于01000001的字,通常字母01000001字形看起来像

一个

这将显示给用户。

在任何时候,系统都不会真正使用字形字符,而只是使用二进制数。该系统本身就是一个中式房间。


printf的真正魔力不在于它如何处理字符,而在于它如何处理数字,因为这些数字会转换为更多字符。当%c按原样传递值时,%d会将0b101111000110000101001110这样的简单整数值转换为字节0b00110001 0b00110010 0b00110011 0b00110100 0b00110101 0b00110110 0b00110111 0b00111000以便显示例程将其正确显示为

12345678

C 中的char只是一个 CHAR_BIT 位长的整数。通常它有 8 位长。

printf 如何确切地知道值为 65 的字符是字母"A">

实现知道它使用什么字符编码,pritnf 函数代码采取适当的操作,输出字母'A'

最新更新