在 R 中使用用户输入文本字符串



我有一个代码,可以根据输入的国家/地区使用特定标签从网站中提取数据。但是,我希望它使用户输入一个国家/地区,然后提取适当的详细信息。我拥有的代码如下:

library(rvest)
x <- readline(prompt = "Enter Country:   ")
url <- "http://oceantax.co.uk/links/tax-authorities-worldwide.html"
pg <- html(url)
country <- pg %>% html_nodes(xpath="//a[contains(@title, 'x')]")
country <- pg %>% html_nodes("a[title~=x]")
argname <- country %>% html_text()       # get the text of the anchor
argurl <- country %>% html_attr("href") # get the URL of the anchor
y <- rbind(argname,argurl)

这不起作用,因为 x 在代码中的位置,它不会用用户输入替换它。例如,如果我手动将 x 替换为阿根廷,它可以完美运行。提前谢谢。

原因是 x 被视为引号内的文本。它的字面意思是字符"x",而不是向量。

请参阅下面创建"公式"向量的行。我使用 paste() 连接一个字符串,该字符串馈送到抓取函数中。

这对我有用。让我知道它是否适合您。

library(rvest)
x <- readline(prompt = "Enter Country:   ")
url <- "http://oceantax.co.uk/links/tax-authorities-worldwide.html"
pg <- html(url)
formula<-paste("//a[contains(@title, '",x,"')]",sep='')
country <- pg %>% html_nodes(xpath=formula)
formula<-paste('a[title~=',x,']',sep='')
country <- pg %>% html_nodes(formula)
argname <- country %>% html_text()       # get the text of the anchor
argurl <- country %>% html_attr("href") # get the URL of the anchor
y <- rbind(argname,argurl)

这是一个仅使用包XML的替代方法。此外,这使用 sprintf() 来替换 x 的值。 当您有多个值要替换时,这很好,而且它通常比paste()

更有效
library(XML)
x <- readline(prompt = "Enter Country:   ")
"Argentina"
url <- "http://oceantax.co.uk/links/tax-authorities-worldwide.html"
node <- htmlParse(url)[sprintf("//a[contains(@title, %s)]", x)][[1]]
do.call("rbind", list(argname = xmlValue(node), 
    argurl = xmlGetAttr(node, "href")))
#         [,1]                                       
# argname "Federal Administration of Public Revenues"
# argurl  "http://www.afip.gob.ar/english/"

相关内容

  • 没有找到相关文章

最新更新