r语言 - 如何删除 HTML 换行符<br />?



我有一个网络抓取评论的数据集,不幸的是它们包含了很多<br >标签,所以在我清理数据(删除停止词等)之后,很多单一的"留在数据集中。我想删除这些换行符以及一些随机的字母数字字符(例如b00oex3),这些字符在文本中没有意义。因此,在清理之后,这是一个示例:

product b001e5dxao br train chocolate chai mix 12 ounce bags br br

我想把这个变成

product train chocolate chai mix ounce bags.

我试过了


gsub("(<br />)"," ",text)

但是它返回以下错误

gsub(。, (
)", ", text):断言'tree->num_tags == num_tags'执行regexp失败:文件'tree- compile.c',第634行警告信息:在gsub(。, (
)", ", text):参数'pattern'的长度为>

您可以尝试使用来自revest包的read_html()html_elements()来解析html,并首先避免以html标记结束。

最新更新