索引Youtube视频的谷歌搜索设备



我们成功地使用Youtube API创建了GSA要求的元数据和url xml提要,并根据文档

将其推送到我们的Google搜索设备。

我们的问题是,我们知道你需要在管理控制台的内容源> Web抓取>开始和阻止url 页面中放置一个开始url。如果我们将https://www.youtube.com作为起始url,并将关注模式设置为https://www.youtube.com/watch?v=*(看起来就像所有youtube视频关注的一样),GSA会只索引来自feed的内容,还是会到youtube.com并索引一堆不是我们频道的内容?我没有看到任何地方可以为视频指定频道。

仅供参考,我们知道FishBowlSolutions连接器用于YouTube,但试图避免使用TomCat旋转另一个服务器只是为了索引我们的YouTube视频。

你不应该将youtube-url添加到你的开始url中,只能添加到你的关注模式中。这样,爬虫不会从上到下抓取Youtube,但你在提要中提供的url将被抓取。但是,如果GSA在抓取的页面上发现url,它显然也会抓取这些url。一个选择是收紧跟随模式。当然,您可以在google适配器框架上开发Youtube连接器,这对java开发人员来说并不难!

Google CSE搜索

YouTube用户面板

我没有使用过GSA(虽然我正在使用它,这就是我找到你的帖子的方式),但我使用谷歌的CSE完成此任务的方式是对频道,用户或播放列表进行索引,而不是一般的youtube,即:

youtube . com/user/alltrapmusic

或:youtube dot com/channel/UC_ahy2GUec7EmbWF3LGxLhQ

或:YouTube dot/playlist?列表= PLsHnWFR4n5jBFYdsclaKtdWQtf2Iu8bKZ

因此,在CSE中,我可以配置为仅搜索该用户,频道和播放列表,并仅返回在这三个(谷歌CSE搜索链接)上找到的结果。

我只能假设GSA的工作原理相同(正如我提到的,我没有GSA的经验);如果没有,我道歉。

~ chipleh

注。-为了找到你的youtube频道,去用户链接(youtube用户面板链接);在那里你可以找到home、视频、播放列表、频道等。

对于那些希望使用Youtube api并将他们的视频推送到GSA的人来说,我们发现需要对feed进行一些更改。

feedtype在xml中需要是full。这告诉GSA,它需要知道的关于内容的一切都在xml中,它不需要出去索引url。

您需要在xml中有一个<content>节点。我们使用来自Youtube api的描述作为值。这是在搜索结果

中显示给用户的内容。记录中的

url属性需要是一个可以添加到GSA设置中的"开始"、"阻止"url和"遵循"模式中的值,并且需要是唯一的。这些实际上并不需要存在,但是GSA将使用xml中的这个值来确定是否应该将其包含在索引中。我们使用了一个假的url,并添加了Youtube视频ID的值以使其唯一

displayurl属性将是将显示在结果中的url,因此它将具有实际的youtube url。

开始和阻止url 应该包含通用url属性值。对我们来说,它是假目录http://www.yourdomain.com/video/youtube/

Follow Pattern应该包含与Start URL匹配的模式。由于该目录中只有视频,因此我们可以放置与Start URL相同的值。如果您指向一个真实的目录,并且其中有您不想索引的其他内容,则可能需要添加视频中常见的模式。

下面是一个示例记录。一旦我们更新了我们的feed,添加了开始和阻止url,我们的视频就会出现在我们的搜索结果中。

<gsafeed>
    <header>
        <datasource>youtube</datasource>
        <feedtype>full</feedtype>
    </header>
    <group action="add">
        <record url="http://www.yourdomain.com/video/youtube/?VIDEOID" displayurl="https://www.youtube.com/watch?v=VIDEOID" mimetype="text/html">
            <content><![CDATA[DESCRIPTION]]></content>
            <metadata>
                <meta name="Title" content="TITLE OF VIDEO"></meta>
                <meta name="Published" content="2016-08-15T22:00:38.000Z"></meta>
                <meta name="PhotoURL" content="https://i.ytimg.com/.."></meta>
            </metadata>
        </record>
</group>
</gsafeed>

相关内容

  • 没有找到相关文章

最新更新