问题
我正在清理一些旧的朝鲜语代码,有些代码部分曾经是朝鲜语,我想翻译成英语。然而,似乎出现了编码问题,文本不再是朝鲜语。相反,这是一团糟。
我想把这根断了的绳子改成英文翻译。
我的计划是从断开的字符串开始,使用我电脑上用于解码断开的串的编解码器将其编码为二进制,使用韩语编解码器将二进制解码为韩语,然后谷歌将韩语翻译成英语问题是我不知道如何将这些混乱解码成可读的韩语
我尝试过的
我开始写一些Python3代码来翻译它,但我一直遇到编码错误,老实说,我不知道从哪里开始。这段代码是在假设韩国人使用cp949
编解码器的情况下编写的,我不确定。
fileIn = open('Broken_Korean.txt', 'r', encoding='cp949')
fileOut = open('Fixed_Korean.txt', 'w')
Lines = fileIn.readlines()
for line in Lines:
fileOut.write(str(line.encode('cp949')))
fileOut.write('n')
fileOut.write(line.encode('cp949').decode('utf-8'))
我也研究过这个问题,但没有发现任何突破性的东西。我相信用来显示断开的字符串的编解码器是UTF-8,但我可能错了。我不知道最初的韩语是怎么写的,只知道它是用一个";多字节编码方案(MBCS(";。就上下文而言,编写该程序的程序是LabVIEW 2015。据推测,他们在编写初始代码时使用了朝鲜语版本。
一些字符串断裂的例子:
ÆÄÀÏ ´ëÈ »óÀÚ5
ÆÄÀÏ ´ëÈ »óÀÚ6
ÆÄÀÏ ´ëÈ »óÀÚ
幸运的是,一些编码错误发生在枚举上,所以我能够找到英文翻译。使用这个翻译,我可以猜测《古兰经》可能是什么,但我不确定。我想这可能有助于我推断所使用的编解码器,但我不知道如何做到
CCD_ 5=有限样本>유한 샘플
CCD_ 6=连续样本>연속 샘플
Çϵå¿þ¾î ŸÀֿ̹¡ ÀÇÇÑ ´ÜÀÏ Æ÷ÀÎÆ®
=硬件定时单点>하드웨어 타이밍 단일 포인트
任何关于编码的帮助或如何解决这一问题的提示都将不胜感激!!我现在很失落。
编辑:以下是一些断开的字符串的十六进制转储:
Broken_Korean.txt
ÆÄÀÏ ´ëÈ »óÀÚ5
ÆÄÀÏ ´ëÈ »óÀÚ6
ÆÄÀÏ ´ëÈ »óÀÚ
À¯ÇÑ »ùÇÃ
¿¬¼Ó »ùÇÃ
Çϵå¿þ¾î ŸÀֿ̹¡ ÀÇÇÑ ´ÜÀÏ Æ÷ÀÎÆ®
hexdump -C Broken_Korean.txt
000000 c3 86 c3 84 c3 80 c3 8f 20 c2 b4 c3 ab c3 88 c2 ........ .......
000010 ad 20 c2 bb c3 b3 c3 80 c3 9a 35 0d 0a c3 86 c3 . ........5.....
000020 84 c3 80 c3 8f 20 c2 b4 c3 ab c3 88 c2 ad 20 c2 ..... ........ .
000030 bb c3 b3 c3 80 c3 9a 36 0d 0a c3 86 c3 84 c3 80 .......6........
000040 c3 8f 20 c2 b4 c3 ab c3 88 c2 ad 20 c2 bb c3 b3 .. ........ ....
000050 c3 80 c3 9a 0d 0a c3 80 c2 af c3 87 c3 91 20 c2 .............. .
000060 bb c3 b9 c3 87 c3 83 0d 0a c2 bf c2 ac c2 bc c3 ................
000070 93 20 c2 bb c3 b9 c3 87 c3 83 0d 0a c3 87 c3 8f . ..............
000080 c2 b5 c3 a5 c2 bf c3 be c2 be c3 ae 20 c3 85 c2 ............ ...
000090 b8 c3 80 c3 8c c2 b9 c3 96 c2 bf c2 a1 20 c3 80 ............. ..
0000a0 c3 87 c3 87 c3 91 20 c2 b4 c3 9c c3 80 c3 8f 20 ...... ........
0000b0 c3 86 c3 b7 c3 80 c3 8e c3 86 c2 ae ............
六进制转储中的数据可能被读取为ISO-8859-1(也称为Latin-1
(,并重新保存为UTF-8。若要反转,请以UTF-8解码以获得原始cp939
字节值,但在Unicode字符串中作为Unicode代码点。latin1
编解码器占据前256个代码点,使用它进行编码会产生具有相同字节值的字节串。然后可以应用正确的编解码器来解码回Unicode字符串:
data = bytes.fromhex('''
c3 86 c3 84 c3 80 c3 8f 20 c2 b4 c3 ab c3 88 c2
ad 20 c2 bb c3 b3 c3 80 c3 9a 35 0d 0a c3 86 c3
84 c3 80 c3 8f 20 c2 b4 c3 ab c3 88 c2 ad 20 c2
bb c3 b3 c3 80 c3 9a 36 0d 0a c3 86 c3 84 c3 80
c3 8f 20 c2 b4 c3 ab c3 88 c2 ad 20 c2 bb c3 b3
c3 80 c3 9a 0d 0a c3 80 c2 af c3 87 c3 91 20 c2
bb c3 b9 c3 87 c3 83 0d 0a c2 bf c2 ac c2 bc c3
93 20 c2 bb c3 b9 c3 87 c3 83 0d 0a c3 87 c3 8f
c2 b5 c3 a5 c2 bf c3 be c2 be c3 ae 20 c3 85 c2
b8 c3 80 c3 8c c2 b9 c3 96 c2 bf c2 a1 20 c3 80
c3 87 c3 87 c3 91 20 c2 b4 c3 9c c3 80 c3 8f 20
c3 86 c3 b7 c3 80 c3 8e c3 86 c2 ae
''')
fixed = data.decode('utf8').encode('latin1').decode('cp949')
print(fixed)
输出:
파일 대화 상자5
파일 대화 상자6
파일 대화 상자
유한 샘플
연속 샘플
하드웨어 타이밍에 의한 단일 포인트
翻译(谷歌翻译(:
File Dialog 5
File Dialog 6
File dialog
Finite sample
Continuous sample
Single point by hardware timing
如果从一个文件开始,请以UTF-8格式读取该文件,应用修复程序,然后以(正确的(UTF-8格式写回:
with open('Broken_Korean.txt', 'r', encoding='utf8') as f:
data = f.read().encode('latin1').decode('cp949')
with open('Fixed_Korean.txt', 'w', encoding='utf8') as f:
f.write(data)