r语言 - 整洁的数据框:删除德语字符 - r - Tidy data frame: German characters being removed 小贝子编程网

我使用以下代码将数据框转换为整洁的数据框：

replace_reg <- "https://t.co/[A-Za-z\d]+|http://[A-Za-z\d]+|&amp;|&lt;|&gt;|RT|https"
unnest_reg <- "([^A-Za-z_\d#@']|'(?![A-Za-z_\d#@]))"
tidy_tweets <- tweets %>% 
filter(!str_detect(text, "^RT")) %>%
mutate(text = str_replace_all(text, replace_reg, "")) %>%
unnest_tokens(word, text, token = "regex", pattern = unnest_reg) %>%
filter(!word %in% custom_stop_words2$word,
str_detect(word, "[a-zäöüß]"))

但是，这将生成一个整洁的数据框，其中德语字符 üäöß 将从新创建的单词列中删除，例如，"wählen"变为两个单词："w"和"hlen"，并且删除了特殊字符。

我正在尝试获取德语单词的整洁数据框，以进行文本分析和术语频率。

有人可以指出我如何处理这个问题的正确方向吗？

您需要将括号表达式中的所有A-Za-z\d替换为[:alnum:]。

POSIX 字符类[:alnum:]匹配 Unicode 字母和数字。

replace_reg <- "https://t.co/[[:alnum:]]+|http://[[:alnum:]]+|&amp;|&lt;|&gt;|RT|https"
unnest_reg <- "([^[:alnum:]_#@']|'(?![[:alnum:]_#@]))"

如果将这些模式与纵梁函数一起使用，也可以考虑改用[\p{L}\p{N}]，如

unnest_reg <- "([^\p{L}\p{N}_#@']|'(?![\p{L}\p{N}_#@]))"

其中p{L}匹配任何 Unicode 字母，p{N}匹配任何 Unicode 数字。

r语言 - 整洁的数据框:删除德语字符

相关内容

最新更新

热门标签：