我有一个代码,可以根据输入的国家/地区使用特定标签从网站中提取数据。但是,我希望它使用户输入一个国家/地区,然后提取适当的详细信息。我拥有的代码如下:
library(rvest)
x <- readline(prompt = "Enter Country: ")
url <- "http://oceantax.co.uk/links/tax-authorities-worldwide.html"
pg <- html(url)
country <- pg %>% html_nodes(xpath="//a[contains(@title, 'x')]")
country <- pg %>% html_nodes("a[title~=x]")
argname <- country %>% html_text() # get the text of the anchor
argurl <- country %>% html_attr("href") # get the URL of the anchor
y <- rbind(argname,argurl)
这不起作用,因为 x 在代码中的位置,它不会用用户输入替换它。例如,如果我手动将 x 替换为阿根廷,它可以完美运行。提前谢谢。
原因是 x 被视为引号内的文本。它的字面意思是字符"x",而不是向量。
请参阅下面创建"公式"向量的行。我使用 paste() 连接一个字符串,该字符串馈送到抓取函数中。
这对我有用。让我知道它是否适合您。
library(rvest)
x <- readline(prompt = "Enter Country: ")
url <- "http://oceantax.co.uk/links/tax-authorities-worldwide.html"
pg <- html(url)
formula<-paste("//a[contains(@title, '",x,"')]",sep='')
country <- pg %>% html_nodes(xpath=formula)
formula<-paste('a[title~=',x,']',sep='')
country <- pg %>% html_nodes(formula)
argname <- country %>% html_text() # get the text of the anchor
argurl <- country %>% html_attr("href") # get the URL of the anchor
y <- rbind(argname,argurl)
这是一个仅使用包XML
的替代方法。此外,这使用 sprintf()
来替换 x
的值。 当您有多个值要替换时,这很好,而且它通常比paste()
library(XML)
x <- readline(prompt = "Enter Country: ")
"Argentina"
url <- "http://oceantax.co.uk/links/tax-authorities-worldwide.html"
node <- htmlParse(url)[sprintf("//a[contains(@title, %s)]", x)][[1]]
do.call("rbind", list(argname = xmlValue(node),
argurl = xmlGetAttr(node, "href")))
# [,1]
# argname "Federal Administration of Public Revenues"
# argurl "http://www.afip.gob.ar/english/"