r-如何编写动态网址代码以进行网页抓取



我正在尝试编写一个web抓取代码,该代码将连接一个具有交替结尾的基本网址,以检索特定的网页数据。

示例:

基本地址:https://www.walkscore.com/score/

结束地址:/1234-fake-Address-dr-54321-columnbus-oh-12345

我在Excel文件的第二行和第二列列出了我所有的备用结尾(数据从B2单元格开始(,到目前为止有这样的代码:

install.packages("openxlsx")
library(openxlsx)
install.packages("readxl")
library(readxl)
install.packages("XLConnect")
library(XLConnect)
install.packages("rio")
library(rio)
library(rvest)
install.packages('xlsx')
library(xlsx)
install.packages(“tidyverse”)
library(tidyverse)
install.packages(“readr”)
library(readr)
setwd("**personal directory**")
add <- readxl::excel_sheets("Walkability Addresses.xlsx")
**url<-html(paste("https://www.walkscore.com/score/",add$Full Address[1],sep=""))*
selector_name <- ".block-header-badge score-info-link "
walkability<-html_nodes(x = url, css = selector_name) %>%
html_text()
script <- data.frame(add$Full Address[1]),walkability)
colnames(script) <- c("Address","Walkability Score")
for (i in 2:nrow(add)){

url<-html(paste("https://www.walkscore.com/score/",add$Full Address[i],sep=""))
selector_name <- ".block-header-badge score-info-link "
walkability<-html_nodes(x = url, css = selector_name) %>%
html_text()
new_script <- data.frame(add$Full Address[i]),walkability)
colnames(new_script) <- c("Address",”Walkability Score”)  

script <- rbind(script, new_script)
}

为了清晰起见,

Full Address=我想要提取的结束数据的列名,[1]=我试图让代码跳过一行(标题行(

*在我的第三步之后,我一直得到以下错误:

错误:"url&lt-html(粘贴(";https://www.walkscore.com/score/",添加$完整地址";

我相信它指的是$和[],因为我尝试不使用这些符号,但被告知没有问题。如何更好地引用我想要提取的Excel数据,以便使代码具有动态性并能够在列表中向下移动?非常感谢。

我认为Full adress有问题。

我认为这个空间可能会引起一些麻烦,它会尝试访问add$Full

你可能想试试

url<-html(paste("https://www.walkscore.com/score/",add$`Full Address`[i],sep=""))

相关内容

  • 没有找到相关文章

最新更新