R:网络抓取文章

  • 本文关键字:文章 抓取 网络 r
  • 更新时间 :
  • 英文 :


我想在网上抓取以下文章(希腊语(

https://www.capital.gr/politiki/3460863/x-theoxaris-i-krisi-mporei-na-apotelesei-eukairia-gia-ton-elliniko-tourismo

我不知道该怎么做。我尝试了 rvest,但没有成功:

url <- 'https://www.capital.gr/politiki/3460863/x-theoxaris-i-krisi-mporei-na-apotelesei-eukairia-gia-ton-elliniko-tourismo'
read_html(url) %>%
html_nodes(css = ".wcms-article-content") %>%
html_text

这应该有效:

url <- 'https://www.capital.gr/politiki/3460863/x-theoxaris-i-krisi-mporei-na-apotelesei-eukairia-gia-ton-elliniko-tourismo'
library(rvest)
read_html(url) %>%
html_nodes(css = "#articleBody p") %>%
html_text
[1] "ntΜία "ανάσα" πριν την έναρξη της τουριστικής σεζόν, ο υπουργός Τουρισμού Χάρης Θεοχάρης παρουσίασε από τη Σαντορίνη το πρόγραμμα "Τουρισμός για όλους", ένα πρόγραμμα για τη στήριξη της εσωτερικής τουριστικής κίνησης, των επιχειρήσεων και της απασχόλησης.n"                                                                                                                                                                                                                                                                                                   
[2] "nt"Αυτές οι ημέρες etc. etc...

最新更新