小贝子编程

UnicodeDecodeError：'utf8'编解码器无法解码位置 894 中的字节0xb5：无效的起始字节

本文关键字：字节 0xb5 无效位置编解码器 utf8 UnicodeDecodeError 解码 python utf-8 scikit-learn
更新时间 : 2023-09-05
英文 : UnicodeDecodeError: 'utf8' codec can't decode byte 0xb5 in position 894: invalid start byte

我正在使用scikit-learn进行项目。在执行功能提取（work_with_text_data教程）时，我会得到UnicodeDecodeError：'utf8'编解码器无法解码字节。

使用Python 2.7.8，并使用Make构建scikit-learn。

from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(dataset.data)
print(X_train_counts.shape)

请帮助如何解决？

使用load_files函数时，编码应为latin1

twenty_train = load_files('path/to/folder',encoding='latin1')

在sklearn/datasets/twenty_newscroups.py

中

function _download_20newsgroups
...
load_files(train_path, encoding='latin1')

UnicodeDecodeError：'utf8'编解码器无法解码位置 894 中的字节0xb5：无效的起始字节

相关内容

最新更新

热门标签：