r-YouTube评论抓取器返回的结果有限

任务：

我想从一个给定的视频中抓取所有的YouTube评论。

我成功地改编了前一个问题的R代码(在R中删除Youtube评论)。

这是代码：

library(RCurl)
library(XML)
x <- "https://gdata.youtube.com/feeds/api/videos/4H9pTgQY_mo/comments?orderby=published"
html = getURL(x)
doc  = htmlParse(html, asText=TRUE) 
txt  = xpathSApply(doc, 
"//body//text()[not(ancestor::script)][not(ancestor::style)[not(ancestor::noscript)]",xmlValue)

要使用它，只需将视频ID(即"4H9pTgQY_mo")替换为所需的ID即可。

问题：

问题是它没有返回所有的评论。事实上，无论视频中有多少评论，它总是返回一个包含283个元素的向量。

有人能告诉我这里出了什么问题吗？令人难以置信的沮丧。非常感谢。

我(在大多数情况下)能够通过使用最新版本的Youtube Data API和R包httr来实现这一点。我采用的基本方法是向适当的URL发送多个GET请求，并以100(API允许的最大值)的批量获取数据，即

base_url <- "https://www.googleapis.com/youtube/v3/commentThreads/"
api_opts <- list(
part = "snippet",
maxResults = 100,
textFormat = "plainText",
videoId = "4H9pTgQY_mo",  
key = "my_google_developer_api_key",
fields = "items,nextPageToken",
orderBy = "published")

其中key当然是您实际的Google Developer密钥。

初始批次的检索方式如下：

init_results <- httr::content(httr::GET(base_url, query = api_opts))
##
R> names(init_results)
#[1] "nextPageToken" "items"
R> init_results$nextPageToken
#[1] "Cg0Q-YjT3bmSxQIgACgBEhQIABDI3ZWQkbzEAhjVneqH75u4AhgCIGQ="       
R> class(init_results)
#[1] "list"

第二个元素items是第一批的实际结果集：它是一个长度为100的列表，因为我们在GET请求中指定了maxResults = 100。第一个元素nextPageToken是我们用来确保每个请求返回适当的结果序列的元素。例如，我们可以得到下面的100个结果，如下所示：

api_opts$pageToken <- gsub("\=","",init_results$nextPageToken)
next_results <- httr::content(
httr::GET(base_url, query = api_opts))
##
R> next_results$nextPageToken
#[1] "ChYQ-YjT3bmSxQIYyN2VkJG8xAIgACgCEhQIABDI3ZWQkbzEAhiSsMv-ivu0AhgCIMgB"

其中，当前请求的pageToken被返回为先前的请求nextPageToken，并且我们得到了一个新的nextPageToken，用于获得下一批结果。

这很简单，但在我们发送每个请求后，必须手动更改nextPageToken的值显然会非常乏味。相反，我认为这将是一个简单R6类的好用例：

yt_scraper <- setRefClass(
"yt_scraper",
fields = list(
base_url = "character",
api_opts = "list",
nextPageToken = "character",
data = "list",
unique_count = "numeric",
done = "logical",
core_df = "data.frame"),
methods = list(
scrape = function() {
opts <- api_opts
if (nextPageToken != "") {
opts$pageToken <- nextPageToken
}
res <- httr::content(
httr::GET(base_url, query = opts))
nextPageToken <<- gsub("\=","",res$nextPageToken)
data <<- c(data, res$items)
unique_count <<- length(unique(data))
},
scrape_all = function() {
while (TRUE) {
old_count <- unique_count
scrape()
if (unique_count == old_count) {
done <<- TRUE
nextPageToken <<- ""
data <<- unique(data)
break
}
}
},
initialize = function() {
base_url <<- "https://www.googleapis.com/youtube/v3/commentThreads/"
api_opts <<- list(
part = "snippet",
maxResults = 100,
textFormat = "plainText",
videoId = "4H9pTgQY_mo",  
key = "my_google_developer_api_key",
fields = "items,nextPageToken",
orderBy = "published")
nextPageToken <<- ""
data <<- list()
unique_count <<- 0
done <<- FALSE
core_df <<- data.frame()
},
reset = function() {
data <<- list()
nextPageToken <<- ""
unique_count <<- 0
done <<- FALSE
core_df <<- data.frame()
},
cache_core_data = function() {
if (nrow(core_df) < unique_count) {
sub_data <- lapply(data, function(x) {
data.frame(
Comment = x$snippet$topLevelComment$snippet$textDisplay,
User = x$snippet$topLevelComment$snippet$authorDisplayName,
ReplyCount = x$snippet$totalReplyCount,
LikeCount = x$snippet$topLevelComment$snippet$likeCount,
PublishTime = x$snippet$topLevelComment$snippet$publishedAt,
CommentId = x$snippet$topLevelComment$id,
stringsAsFactors=FALSE)
})
core_df <<- do.call("rbind", sub_data)
} else {
message("n`core_df` is already up to date.n")
} 
}
)
)

可以这样使用：

rObj <- yt_scraper()
##
R> rObj$data
#list()
R> rObj$unique_count
#[1] 0
##
rObj$scrape_all()
##
R> rObj$unique_count
#[1] 1673
R> length(rObj$data)
#[1] 1673
R> ##
R> head(rObj$core_df)
Comment              User ReplyCount LikeCount              PublishTime
1                    That Andorra player was really Ruud..<U+feff>         Cistrolat          0         6 2015-03-22T14:07:31.213Z
2                          This just in; Karma is a bitch.<U+feff> Swagdalf The Obey          0         1 2015-03-21T20:00:26.044Z
3                                          Legend! Haha B)<U+feff>  martyn baltussen          0         1 2015-01-26T15:33:00.311Z
4 When did Van der sar ran up? He must have run real fast!<U+feff> Witsakorn Poomjan          0         0 2015-01-04T03:33:36.157Z
5                           <U+003c>b<U+003e>LOL<U+003c>/b<U+003e>           F Hanif          5        19 2014-12-30T13:46:44.028Z
6                                          Fucking Legend.<U+feff>        Heisenberg          0        12 2014-12-27T11:59:39.845Z
CommentId
1   z123ybioxyqojdgka231tn5zbl20tdcvn
2   z13hilaiftvus1cc1233trvrwzfjg1enm
3 z13fidjhbsvih5hok04cfrkrnla2htjpxfk
4   z12js3zpvm2hipgtf23oytbxqkyhcro12
5 z12egtfq5ojifdapz04ceffqfrregdnrrbk
6 z12fth0gemnwdtlnj22zg3vymlrogthwd04

正如我之前提到的，这让你几乎得到了所有东西——在1790条评论中有1673条。由于某些原因，它似乎无法捕捉到用户的嵌套回复，并且我不太确定如何在API框架中指定这一点。

我之前已经为使用Google Analytics API建立了一个Google Developer帐户，但如果你还没有这样做，那应该很简单。这里有一个概述-您不需要设置OAuth或类似的东西，只需创建一个项目并创建一个新的Public API访问密钥。

XML包的替代方案是rvest包。使用您提供的URL，抓取评论如下所示：

library(rvest)
x <- "https://gdata.youtube.com/feeds/api/videos/4H9pTgQY_mo/comments?orderby=published"
x %>% 
html %>% 
html_nodes("content") %>% 
html_text

返回注释的字符向量：

[1] "That Andorra player was really Ruud.."                                                                  
[2] "This just in; Karma is a bitch."                                                                        
[3] "Legend! Haha B)"                                                                                        
[4] "When did Van der sar ran up? He must have run real fast!"                                               
[5] "What a beast Ruud was!"
...

有关rvest的更多信息，请点击此处。

您的问题在于获得最大的结果。

解决方案算法

首先，您需要调用urlhttps://gdata.youtube.com/feeds/api/videos/4H9pTgQY_mo?v=2此url包含视频评论计数的信息，从中提取该数字并进行迭代。

<gd:评论>ltgd:feedLink。。。。。countHint='1797'/>lt/gd:评论>

之后，使用它来迭代具有以下两个参数的think-urlhttps://gdata.youtube.com/feeds/api/videos/4H9pTgQY_mo/comments?max-results=50&start-index=1
迭代时，需要将起始索引从1,51101151更改…确实测试了max-result，它的限制为50。

我用R中的"tuber"包尝试了不同的视频，结果在这里。如果一个作者只有回复(对视频没有评论)，那么根据回复的数量来表现。如果作者的回复不超过5条，那么就不要刮到任何人。但是，如果有超过5条回复，那么一些评论就会被删除。如果一位作者同时有自己的评论和回复，那么不止第二个人(我告诉过)的评论是抓取的。

相关内容

最新更新

热门标签：