我正试图从这个网站上抓取表,而rvest返回空列表。它适用于其他网站。问题出在哪里?
谢谢,
library(rvest)
urlONGov <- "https://www.ontario.ca/page/2019-novel-coronavirus"
ONGov <- urlONGov %>%
xml2::read_html() %>%
html_nodes(xpath='//*[@id="pagebody"]/table[1]') %>%
html_table()
ONGov
该表是从API调用中动态检索的,刷新网页时可以在开发工具网络选项卡中找到。该调用返回json,您需要遍历json来检索一些html,然后您可以从中解析表。
library(jsonlite)
library(rvest)
table <- jsonlite::read_json('https://api.ontario.ca/api/drupal/page%2F2019-novel-coronavirus?fields=nid,field_body_beta,body')%>%
.$body%>%.$und%>%.[[1]]%>%.$safe_value%>%
read_html()%>%html_node('table')%>%html_table()