r-从语料库中删除特殊字符



我构建了一个数据,显示了所有带有标点符号的术语及其频率。然后我应该删除标点符号,并检查是否还有标点符号。

newpapers1 <- tm_map(newpapers, removePunctuation)
punremove <- function(x){gsub(c('¡'|'¯'),"",x)}
punremove1 <- lapply(newpapers1, punremove)
my.check.func <- function(x){str_extract_all(x, "[[:punct:]]")}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

但我最终还是得到了这个特殊的角色:

Var1 Freq
1    ¡   25

有没有一种方法可以写一个函数来删除所有标点符号,或者一个函数可以删除这些标点符号?

编辑:检查文件后,标点符号仍然存在:

> newpapers1[[24]]$content

"这项研究采用了跨文化的视角来考察当地观众感知和欣赏外国戏剧,以及这种心理过程因媒体之间的文化距离而不同和观众使用韩国年轻人的方便样本文化折扣理论对大学生的预测表明文化距离降低了韩国观众的感知对戏剧人物的认同侵蚀了他们的乐趣外国戏剧与文化折扣理论不同距离唤起了韩国观众的新奇感提高他们对外国戏剧的欣赏这些发现的理论和实践意义以及他们潜在的局限性">


您可以使用gsub来删除标点符号,如下所示。

newpapers1 <- tm_map(newpapers, removePunctuation)
my.check.func <- function(x){gsub('[[:punct:]]+','',x)}
my.check1 <- lapply(newpapers1, my.check.func)
p <- as.data.frame(table(unlist(my.check1)))
p

希望这能有所帮助。

最新更新