从 R 中的语料库中删除 html 标记



我正在尝试从R中的语料库(文档(中删除html标签:

tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC> 

我正在使用的代码:

tun<-function(x) gsub("<TRAILER>,<HTML>,<BODY>,<P>,<TEXT>,</P>,</TEXT>,
</BODY>,</HTML>", "", x)
docs <- tm_map(docs, tun)

但是它无法从语料库中删除标签,这是为什么?

如果要删除所有开始和结束的HTML标记,则可以尝试</?[^>]+>查找模式并替换为空字符串:

x <- "tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>"
gsub("</?[^>]+>", "", x)

[1] "tags :     NYT-06-22-98 1759EDT &QL;  "

演示

作为主要的免责声明,通常不应使用正则表达式来解析 HTML/XML 内容。 在这种特殊情况下,如果您只想去除所有标签,gsub可能是一个可行的选择。

最新更新