r语言 - 如何选择特定"target"网页的"href"?


<a class="image teaser-image ng-star-inserted" target="_self" href="/politik/inland/neuwahlen-2022-welche-szenarien-jetzt-realistisch-sind/401773131">

我只想提取"href">(例如上面的HTML标签),以便将其与本网站的域名"https://kurier.at">连接起来。并在主页上抓取所有文章。

我尝试了以下代码

library(rvest)
library(lubridate)

kurier_wbpg <- read_html("https://kurier.at")
# I just want the "a" tags which come with the attribute "_self" 
articleLinks <- kurier_wbpg %>% html_elements("a")%>%
html_elements(css = "tag[attribute=_self]")  %>% 
html_attr("href")%>% 
paste("https://kurier.at",.,sep = "")

当我执行到上面代码块的html_attr("href")部分时,我得到的结果是

character(0)

我认为选择HTML元素标签有问题。我需要帮忙吗?

您需要将css缩小到第二个预告块图像,这可以通过使用类的命名约定来实现。可以使用url_absolute()添加域

library(rvest)
library(magrittr)
url <- 'https://kurier.at/'
result <- read_html(url) %>% 
html_element('.teasers-2 .image') %>% 
html_attr('href') %>% 
url_absolute(url)

获得所有预告片的相同原理:

results <- read_html(url) %>% 
html_elements('.teaser .image') %>% 
html_attr('href') %>% 
url_absolute(url)

不确定是否要包括底部的5块。如果是,您可以再次使用类

articles <- read_html(url) %>% 
html_elements('.teaser-title') %>% 
html_attr('href') %>% 
url_absolute(url)

使用xpath-

library(rvest)
kurier_wbpg <- read_html("https://kurier.at")
articleLinks  <- kurier_wbpg %>% 
html_elements("a") %>%
html_elements(xpath = '//*[@target="_self"]') %>%
html_attr('href') %>%
paste0("https://kurier.at",.)
articleLinks
# [1] "https://kurier.at/plus"
# [2] "https://kurier.at/coronavirus"
# [3] "https://kurier.at/politik"
# [4] "https://kurier.at/politik/inland"
# [5] "https://kurier.at/politik/ausland"
#...
#...

相关内容

  • 没有找到相关文章

最新更新