如何在r中获取网络抓取中的特定文本



我正在尝试抓取一个网站并将艺术家映射到url。

我试图从中提取的元素是:

<title data-ng-bind="'Chartmetric | ' + $state.current.data.pageTitle" class="ng-binding">Chartmetric | Fleetwood Mac</title>

我想得到";弗利特伍德Mac";代码外。

下面的代码给了我顶部";数据ng绑定"'图表度量|'+$state.current.data.pageTitle"quot;

编辑:将接受任何给我艺术家标题的答案

library(rvest)
library(dplyr)
url = "https://app.chartmetric.com/artist?id=100"
parsed_page <- url %>% GET(., timeout(10)) %>% read_html
parsed_page%>% 
html_nodes(":contains('Chartmetric')") %>%
html_attrs()%>%
unlist

在您提供了rvest cookie或身份验证后,您应该能够从rvest包中提取带有html_text2()的文本。之后,您可能需要字符串操作。

url %>% read_html %>% 
html_nodes(":contains('Chartmetric')") %>% 
.[2] %>% # Accessing the second node
html_text2() # Extract the text

最新更新