r-用Rvest搜索关键词来抓取谷歌新闻



我想比较不同国家的新闻文章中特定关键字的用法。

我的想法是使用RCrawler:抓取谷歌新闻

RCrawler(website = “https://news.google.com/topics/CAAqIggKIhxDQkFTRHdvSkwyMHZNREZqY0hsNUVnSmtaU2dBUAE?hl=de&gl=DE&ceid=DE%3Ade”, MaxDepth = 5, Keywordfilter = c(“Keyword”), KeywordAccuracy = 99)

然后数着我得到的结果。我不确定这是不是最好的方法,或者它是否正确,但我对R是新手,这是我目前能想到的最好的方法。

由于您使用的是谷歌新闻,与其用这种方式抓取,一种更简单的方法是访问该特定关键字的RSS提要,并将其拉入数据帧。幸运的是,有一个{tidyRSS}包可以用来完成这项工作。

提要的一个示例是使用以下URL:

https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en

在此处了解如何自定义此URL。如果你愿意,你可以通过地理位置进行搜索。

安装tidyRSS后,您可以这样实现它:

library(tidyRSS)
# I will search for the keyword Apple
keyword <- "https://news.google.com/rss/search?q=apple&hl=en-IN&gl=IN&ceid=IN:en"
# From the package vignette
google_news <- tidyfeed(
keyword,
clean_tags = TRUE,
parse_dates = TRUE
)

这为您提供了一个数据框架,其中包含许多描述每篇文章的变量。你可以选择保留哪些。

最新更新