我在文本中的某些位置上有这些 <U+00A0>
。我已经尝试使用这样的删除:
Text<- gsub("<U+00A0>"," ",Text)
,但这似乎只有在单词前面才起作用。它仍然保留在这样的文字中:
"In<U+00A0>conclusion"
希望您能理解我想说的话。
正确的方法是使用 uXXXX
语法,例如。Text <- gsub("u00A0", " ", Text)
我认为您必须使用\
'+'
符号 Text<- gsub(pattern = "<U\+00A0>"," ",Text)
> Text <- "In<U+00A0>conclusion"
> gsub(pattern = "<U\+00A0>"," ",Text)
[1] "In conclusion"
这不如Wolf_wue的答案好。但是,如果所有" <U+00A0>
"都位于字符串的最后位数,则可以使用" substr"功能仅保留字符串的其余部分。
# head(WEA$Text)
# [1] "0.0<U+00A0>" "0.0<U+00A0>" "0.0<U+00A0>" "0.0<U+00A0>" "0.0<U+00A0>"
Text =substr(Text, 1, nchar(WEA$Prcp)-8)
head(Text)
[1] "0.0" "0.0" "0.0" "0.0" "0.0" "0.0"