r语言 - 当URL没有更改时，如何使用过滤器从网站抓取数据？ - r - How to scrape data with filters from the website when the URL doesn't change? 小贝子编程网

我已经从R中的列表中抓取了数据，但它不包括我应用的网站过滤器(list=Oxford 3000和CEFR level=A1(，而且据我所知，没有变量可以用来过滤R中的数据。

有没有其他方法可以让我得到我想要的数据？URL似乎不会随着筛选而更改。

这是我的代码：

url <- "https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000" 
url %>%
map(. %>%
read_html() %>%
html_nodes(".belong-to , .pos , a") %>%
html_text()
) %>%
unlist() -> ox3ka1

要只选择带有过滤器a1的单词，我们可以执行以下操作，

df = 'https://www.oxfordlearnersdictionaries.com/wordlists/oxford3000-5000' %>% read_html() %>% html_nodes('.top-g') %>% html_nodes( "li[data-ox5000 = 'a1']") %>% html_text()
head(df)
[1] "   a   indefinite articlea1      " "   about   adverba1      "         "   about   prepositiona1      "    "   above   adverba1      "        
[5] "   above   prepositiona1      "    "   across   adverba1      "

进一步参考，如何使用html_nodes来选择具有"；属性＝x"；在R中？

r语言 - 当URL没有更改时，如何使用过滤器从网站抓取数据？

相关内容

最新更新

热门标签：