我正在尝试加载复制到rtf文件中的电子邮件(作为我的训练数据)我使用sklearn模块和命令加载包含文件的目录:
sklearn.datasets.load_files
corpus = sklearn.datasets.load_files(<path>,shuffle = False)
当我尝试打印corpus.data时,前6000个字符左右是\x00\x00\x0\x01Bud1\x00\x00\x10\x0\x00\x00\x00\x08。然后显示实际的消息文本,但交织在一起的字符有:\cf0\expnd0\cf0\kerning0\nHey,\\在文本中间。我确实想提一下,有些文本既有德语字符,也有英语字符。
这里可能有什么问题?
最佳好的
在这个函数的文档中,它说
如果将编码设置为None,则内容将由字节而非Unicode组成,并且您将无法使用sklearn.feature_extract.text.中的大多数函数
在不知道文件编码的情况下,您可能想尝试
sklearn.databases.load_files(<path>,shuffle = False, encoding='utf-8')