我想在Youtube上抓取包含字幕/隐藏字幕(CC(的特定语言的视频。
例如,
- 我想抓取200个带有英文字幕的随机英文视频/(CC(
- 我想抓取300个带有中文字幕的随机中文视频/(CC(
- 我想抓取550个带有马来语字幕的随机马来语视频/(CC(
这里有一个api可以帮助提取转录本,但现在的主要瓶颈是我必须在youtube上搜索这些视频,并逐一观看,以确定它们是否真的使用了正确的语言,以及是否真的包含字幕/CC。
一个选项是:
-
使用YouTube数据API-
search
请求搜索包含字幕的视频;为此,使用值为closedCaption
的videoCaption
参数。- 您可能需要使用其他参数来将搜索词减少到特定主题或获得某些所需结果;例如,对于
q
参数,使用检索期望结果的搜索项;以及所有参数,如:videoDuration
,type
=视频,relevanceLanguage
- 您可能需要使用其他参数来将搜索词减少到特定主题或获得某些所需结果;例如,对于
-
一旦你得到这样的结果,复制/粘贴你从请求结果中得到的
videoId
,并使用你的网络爬虫获取更多视频和相关视频。
对于仍在为此而挣扎的任何人,并且根据videoCaption
工作的YouTube数据API,您还需要将type
参数的值设置为video:
如果为此参数指定值,则还必须设置类型参数的值转换为视频。