从API中随机抽取R



我有一个类的组项目,我们需要创建一个闪亮的应用程序。我们要使用的数据来自NYC OpenData,它包含600万条记录。我们只想从中获得一个随机样本。我最初的想法是调用一些数据并用它进行随机样本,但最初的900k数据只针对2020年12月、2021年1月和2021年2月。如果我想在从API退出时随机获得几个月,我该怎么办?

这是我的代码:

api_tokn <- paste0("$$app_token=",key_get("NYC_NINEONEONE")) 
api_endpoint <- "https://data.cityofnewyork.us/resource/n2zq-pubd.json?"
api_limit <- "&$limit=900000"
#api_filter <- "&borough=BRONX"
nineoneone <- slice(fromJSON(paste0(api_endpoint, api_tokn, api_limit)))
class(nineoneone)
colnames(nineoneone)
glimpse(nineoneone)
sample_n(nineoneone,10000)

感谢

请参阅此SO答案,从Socrata API(如NYC开放数据所使用(获取行数和随机行

您可以生成随机行索引,以便在API查询中迭代,如下所示:

row_indices <- 
sample(1:row_count, ## total row count of API dataset
size = desired_size, ## your desired sample size
replace = FALSE)

最新更新