r语言 - 如何删除葡萄牙语字符串的序号指示符



在葡萄牙语中,几个名称具有以下字符:

feminine ª
and 
masculine º 

我需要从我的字符串中删除它们,但我找不到正确的正则表达式。有人能帮我吗?

似乎有效,很奇怪,但有效。

stringr::str_replace_all(string = inep$NO_ENTIDADE, pattern = "�", replacement = "")

葡萄牙语 ASCII 代码页是 CP860。这些字符的代码是

  • 女性 ª - xa6
  • 阳刚 º - xa7

因此,您可以将它们iconv到您的区域设置,然后 subgsub .

fem <- iconv('xa6', 'CP860', 'UTF-8')
masc <- iconv('xa7', 'CP860', 'UTF-8')
s <- c('feminine ª', 'masculine º')
sub(fem, '', s)
#[1] "feminine "   "masculine º"
sub(masc, '', s)
#[1] "feminine ª" "masculine "

最新更新