Python加载sklearn中加载的未知字符



我正在尝试加载复制到rtf文件中的电子邮件(作为我的训练数据)我使用sklearn模块和命令加载包含文件的目录:

    sklearn.datasets.load_files
   corpus =  sklearn.datasets.load_files(<path>,shuffle = False)

当我尝试打印corpus.data时,前6000个字符左右是\x00\x00\x0\x01Bud1\x00\x00\x10\x0\x00\x00\x00\x08。然后显示实际的消息文本,但交织在一起的字符有:\cf0\expnd0\cf0\kerning0\nHey,\\在文本中间。我确实想提一下,有些文本既有德语字符,也有英语字符。

这里可能有什么问题?

最佳好的

在这个函数的文档中,它说

如果将编码设置为None,则内容将由字节而非Unicode组成,并且您将无法使用sklearn.feature_extract.text.中的大多数函数

在不知道文件编码的情况下,您可能想尝试

sklearn.databases.load_files(<path>,shuffle = False, encoding='utf-8')

相关内容

  • 没有找到相关文章

最新更新