r语言 - 如何删除 HTML 换行符<br />？ - r - How to remove HTML line breaks<br />? 小贝子编程网

我有一个网络抓取评论的数据集，不幸的是它们包含了很多<br >标签，所以在我清理数据(删除停止词等)之后，很多单一的"留在数据集中。我想删除这些换行符以及一些随机的字母数字字符(例如b00oex3)，这些字符在文本中没有意义。因此，在清理之后，这是一个示例:

product b001e5dxao br train chocolate chai mix 12 ounce bags br br

我想把这个变成

product train chocolate chai mix ounce bags.

我试过了


gsub("(<br />)"," ",text)

但是它返回以下错误

gsub(。， (
)"， "， text):断言'tree->num_tags == num_tags'执行regexp失败:文件'tree- compile.c'，第634行警告信息:在gsub(。， (
)"， "， text):参数'pattern'的长度为>

您可以尝试使用来自revest包的read_html()和html_elements()来解析html，并首先避免以html标记结束。

r语言 - 如何删除 HTML 换行符<br />？