我正在尝试从tripadvisor挖掘评论数据。我目前正在遵循Hadley Wickham的代码(在这里找到)。我已经为他正在审查的酒店工作了。
但是,当我将其应用于我的情况时(例如。皮查瓦拉姆红树林)的日期是NA的。我发现问题在于他的评论源代码中的日期具有"标题"属性。我正在搜索的网站都没有用于日期信息的此属性标签。相反,当我查看页面的源代码时,日期可在以下行中找到
'< span class="ratingDate" >Reviewed 16 May 2015'.
有谁知道我如何修改他的代码以获取此日期信息?哈德利代码的日期抓取部分是:
date <- reviews %>%
html_node(".rating .ratingDate") %>%
html_attr("title") %>%
strptime("%b %d, %Y") %>%
as.POSIXct()
我对R(以及一般的编码)相当陌生,所以我非常感谢您的帮助。
鉴于网站在不断变化,期望这些示例在 100% 的时间内有效可能是不公平的。
无论如何...这是一个今天有效的解决方案...
library("rvest")
url <- "http://www.tripadvisor.com/Attraction_Review-g790280-d2408767-Reviews-Pichavaram_Mangrove_Forest-Chidambaram_Tamil_Nadu.html"
html(url) %>% html_node(".rating .ratingDate") %>%
html_text %>%
strptime("Reviewed %b %d, %Y") %>%
as.POSIXct()