Python加载sklearn中加载的未知字符

我正在尝试加载复制到rtf文件中的电子邮件（作为我的训练数据）我使用sklearn模块和命令加载包含文件的目录：

    sklearn.datasets.load_files
   corpus =  sklearn.datasets.load_files(<path>,shuffle = False)

当我尝试打印corpus.data时，前6000个字符左右是\x00\x00\x0\x01Bud1\x00\x00\x10\x0\x00\x00\x00\x08。然后显示实际的消息文本，但交织在一起的字符有：\cf0\expnd0\cf0\kerning0\nHey，\\在文本中间。我确实想提一下，有些文本既有德语字符，也有英语字符。

这里可能有什么问题？

最佳好的

在这个函数的文档中，它说

如果将编码设置为None，则内容将由字节而非Unicode组成，并且您将无法使用sklearn.feature_extract.text.中的大多数函数

在不知道文件编码的情况下，您可能想尝试

sklearn.databases.load_files(<path>,shuffle = False, encoding='utf-8')

相关内容

最新更新

热门标签：