R-无效的多字节字符串1



我是R软件的新手

现在,研究使用"tm"包""进行文本挖掘

我在将文本映射到小写时遇到了一个问题

sms_raw<-read.csv(............)
sms_corpus<-Corpus(VectorSource(sms_raw$text)) 
sms_corpus<-Corpus(VectorSource(sms_raw$text))  
tm_map(sms_corpus,content_transformer(tolower))   
error:invalid multubytes string 1

我认为我的csv文件可能不是utf-8,所以我恢复为utf-8但它不起作用。

我的操作系统是win8.1

任何人有这个问题的解决方案,请告诉我。

我通过编码函数轻松解决的错误

在我的文件的列中,名称为文本,包含多字节字符

所以我键入

sms_raw$text <- iconv(enc2utf8(sms_raw$text),sub="byte")

此命令将"text"列(多字节)转换为utf8形式的

最新更新