我正在使用scikit-learn
进行项目。在执行功能提取(work_with_text_data教程)时,我会得到UnicodeDecodeError:'utf8'编解码器无法解码字节。
使用Python 2.7.8,并使用Make构建scikit-learn
。
from sklearn.feature_extraction.text import CountVectorizer
count_vect = CountVectorizer()
X_train_counts = count_vect.fit_transform(dataset.data)
print(X_train_counts.shape)
请帮助如何解决?
使用load_files函数时,编码应为latin1
twenty_train = load_files('path/to/folder',encoding='latin1')
在sklearn/datasets/twenty_newscroups.py
中function _download_20newsgroups
...
load_files(train_path, encoding='latin1')