使用一个模式来获取一个特定的,以提取R中字符串的特定部分



我有一个数据帧,它包含一个";URL";列和一个";摘录自评论";柱我想从网站上获得完整的评论,而不需要获得其余的html代码。

我需要R来定位html代码中的摘录,然后提取由前一个"分隔的所有文本<div";下一个"/div>";。这看起来像:(不需要的文本(<div(…(提取(…(/div>(不需要的文本(

这是我试过的

library(XML)
library(xml2)
library(RCurl)
library(stringr)
df$Review <- str_extract_all(RCurl::getURL(df$Link, ssl.verifypeer = TRUE),paste0(c("^(<div).{1,1000000}"),paste(df$Estratto),c(".{1,1000000}(/div>)")))

这个问题可能是我告诉R提取以"开头的字符串<div";并以"/div>";,而不是";提取包含我的字符串"的完整div类;。

我该如何操作?

这对你有用吗?

library(stringr)
st
[1] "<divwww.google.com/div>" "<divwww.yahoo.com/div>" 
str_extract(st, '(?<=div)(.*)(?=/div>)')
[1] "www.google.com" "www.yahoo.com" 

最新更新