如何从谷歌学者那里提取特定领域所有教授的信息(引文、h-index、当前工作机构等)



我想通过数据挖掘和分析技术,比较世界各地不同机构特定领域教授的不同信息(引文、h-index等)。但我不知道如何提取数百(甚至数千)位教授的数据,因为谷歌没有为其提供官方的API。所以我想知道还有其他方法可以做到这一点吗?

使用此谷歌代码工具将计算单个h-index,但如果您在特定字段中按需计算有限的数字,则不会违反使用条款-它不是专门指访问限制,而是指服务中断(例如批量请求可能会造成此情况)导出问题状态:

我写了一个程序下载了很多搜索结果,但你阻止了我的电脑访问谷歌学者。你能提高限额吗
呃,不,当您使用自动化软件访问Google Scholar时,请尊重我们的robots.txt。作为穿着爬行鞋和戴着网络管理员帽子的人,我们再怎么推荐也不为过。

Web of Science确实有API可用,并与谷歌学者签订了合作协议,但Web of Science仅适用于某些个人

一个解决方案可以是请求用户的科学证书网络(或您自己的证书)按需返回信息——也许是该领域的顶级证书,然后按计划存储。谷歌学者每周只更新几次,这不会被过度使用。

另一种选择是向谷歌请求权限,这是使用条款中提到的,尽管似乎不太可能被授予。

我已经为此做了一个项目。

你向脚本提供一个输入文本文件,其中包含你想从中检索信息的教授的姓名,脚本可以抓取谷歌学者并管理你感兴趣的信息。

该项目还提供了自动下载研究人员/教授个人资料图片的功能。

为了遵守门户施加的限制,您可以在每个请求之间设置一个延迟。如果您有>1k的个人资料爬行可能需要一段时间,但它是有效的。

还实现了一个支持并发的脚本,它的运行速度比基本的序列方法快得多。

注意:为了指定您需要的信息,您必须知道googlescholar生成的html的类的id或类的名称。

祝你好运!

最新更新