如何使用编解码器将一种语言转换为UTF-8编码文档



因此,基本上我仍然是Python的新手,我有一个问题,我有一个日语文档,我正在尝试将其转换为UTF-8编码文档。当我这样做时,我真的不知道我应该得到什么。当我运行目前拥有的程序时,它只是删除所有内容,并为我提供一个空白的UTF-8编码文档。这是我所拥有的,任何帮助都非常感谢。

编辑:对不起,这是错别字,我修复了原始编码。它是shift-jis。

import codecs
codecs.open("rshmn10j.txt", 'r', encoding='shift-jis')
newfile = codecs.open("rshmn10j.txt", 'w', encoding='utf-8')
newfile.write(u'ufeff')
newfile.close()

如果您尝试将文档从编码" x"转换为编码" utf8",则首先必须使用编码来读取文档。

import codecs
original_document_encoding = "shift-jis" # common japanese encoding.
with codecs.open("rshmn10j.txt", 'r', encoding=original_document_encoding) as in_f:
    unicode_content = in_f.read()
with codecs.open("rshmn10j.out.txt", 'w', encoding='utf-8') as out_f:
    out_f.write(unicode_content)

with在此处用于自动关闭该文件时自动关闭文件。

最新更新