在葡萄牙语中,几个名称具有以下字符:
feminine ª
and
masculine º
我需要从我的字符串中删除它们,但我找不到正确的正则表达式。有人能帮我吗?
似乎有效,很奇怪,但有效。
stringr::str_replace_all(string = inep$NO_ENTIDADE, pattern = "�", replacement = "")
葡萄牙语 ASCII 代码页是 CP860。这些字符的代码是
- 女性 ª -
xa6
- 阳刚 º -
xa7
因此,您可以将它们iconv
到您的区域设置,然后 sub
或 gsub
.
fem <- iconv('xa6', 'CP860', 'UTF-8')
masc <- iconv('xa7', 'CP860', 'UTF-8')
s <- c('feminine ª', 'masculine º')
sub(fem, '', s)
#[1] "feminine " "masculine º"
sub(masc, '', s)
#[1] "feminine ª" "masculine "