小贝子编程

使用一个模式来获取一个特定的，以提取R中字符串的特定部分

本文关键字：一个提取字符串定部模式获取 html r text-mining stringr rcurl
更新时间 : 2023-09-20
英文 : Use a pattern to get a specific to extract a specific part of a string in R

我有一个数据帧，它包含一个"；URL"；列和一个"；摘录自评论"；柱我想从网站上获得完整的评论，而不需要获得其余的html代码。

我需要R来定位html代码中的摘录，然后提取由前一个"分隔的所有文本<div"；下一个"/div>"；。这看起来像：(不需要的文本(<div(…(提取(…(/div>(不需要的文本(

这是我试过的

library(XML)
library(xml2)
library(RCurl)
library(stringr)
df$Review <- str_extract_all(RCurl::getURL(df$Link, ssl.verifypeer = TRUE),paste0(c("^(<div).{1,1000000}"),paste(df$Estratto),c(".{1,1000000}(/div>)")))

这个问题可能是我告诉R提取以"开头的字符串<div"；并以"/div>"；，而不是"；提取包含我的字符串"的完整div类；。

我该如何操作？

这对你有用吗？

library(stringr)
st
[1] "<divwww.google.com/div>" "<divwww.yahoo.com/div>" 
str_extract(st, '(?<=div)(.*)(?=/div>)')
[1] "www.google.com" "www.yahoo.com"

使用一个模式来获取一个特定的，以提取R中字符串的特定部分

相关内容

最新更新

热门标签：