从 R 中的语料库中删除 html 标记

我正在尝试从R中的语料库(文档(中删除html标签：

tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>

我正在使用的代码：

tun<-function(x) gsub("<TRAILER>,<HTML>,<BODY>,<P>,<TEXT>,</P>,</TEXT>,
</BODY>,</HTML>", "", x)
docs <- tm_map(docs, tun)

但是它无法从语料库中删除标签，这是为什么？

如果要删除所有开始和结束的HTML标记，则可以尝试</?[^>]+>查找模式并替换为空字符串：

x <- "tags : </P></TEXT>  </BODY> <TRAILER> NYT-06-22-98 1759EDT &QL; </TRAILER> </DOC>"
gsub("</?[^>]+>", "", x)

[1] "tags :     NYT-06-22-98 1759EDT &QL;  "

演示

作为主要的免责声明，通常不应使用正则表达式来解析 HTML/XML 内容。在这种特殊情况下，如果您只想去除所有标签，gsub可能是一个可行的选择。

演示

相关内容

最新更新

热门标签：