github搜索限制结果



我需要在Github上进行大量搜索,以获取论文中的统计数据。

例如,我需要在GitHub上探索大量的Android项目,但该网站将搜索结果限制为1000(例如。https://github.com/search?l=java&q=onCreate&ref=搜索结果&type=代码&utf8=%E2%9C%93)。同样使用Java GitHub API,我使用方法GitHubClient.searchRepositories()尝试了org.eclipse.egit.GitHub.core.client.GitHubClient库,但即使在那里,结果的数量也是有限的。

有人知道如何得到所有结果吗?

搜索API每次查询将返回多达1000个结果(包括分页),如本文所述:

https://developer.github.com/v3/search/#about-搜索api

然而,在执行存储库搜索时,有一个巧妙的技巧可以用来获取1000多个结果。您可以根据创建存储库的日期将搜索划分为多个部分。例如,您可以首先搜索在2013年10月的第一周、第二周、9月创建的存储库,依此类推

因为你将搜索限制在一个狭窄的时间段内,你可能会得到不到1000个结果,因此你可以得到所有结果。如果您注意到在一段时间内返回的结果超过1000个,则必须进一步缩短时间段,以便收集所有结果。

https://help.github.com/articles/searching-repositories/#search-基于何时创建存储库或最后更新

您应该能够通过API实现自动化。

如果你在Github中搜索所有文件名为filename:你的文件名的文件,你也可以用查询属性size对其进行切片。

例如,您正在Github中查找名为test.rb的所有文件,Github API可能会返回超过1100万个结果,但您只能获得1000个结果,因为Github Search API每次搜索最多提供1000个结果。类似于以下网址:https://api.github.com/search/code?q=filename:test.rb+size:1000..1500可以通过改变大小范围来分割您的搜索。

最新更新