我有一个类的组项目,我们需要创建一个闪亮的应用程序。我们要使用的数据来自NYC OpenData,它包含600万条记录。我们只想从中获得一个随机样本。我最初的想法是调用一些数据并用它进行随机样本,但最初的900k数据只针对2020年12月、2021年1月和2021年2月。如果我想在从API退出时随机获得几个月,我该怎么办?
这是我的代码:
api_tokn <- paste0("$$app_token=",key_get("NYC_NINEONEONE"))
api_endpoint <- "https://data.cityofnewyork.us/resource/n2zq-pubd.json?"
api_limit <- "&$limit=900000"
#api_filter <- "&borough=BRONX"
nineoneone <- slice(fromJSON(paste0(api_endpoint, api_tokn, api_limit)))
class(nineoneone)
colnames(nineoneone)
glimpse(nineoneone)
sample_n(nineoneone,10000)
感谢
请参阅此SO答案,从Socrata API(如NYC开放数据所使用(获取行数和随机行
您可以生成随机行索引,以便在API查询中迭代,如下所示:
row_indices <-
sample(1:row_count, ## total row count of API dataset
size = desired_size, ## your desired sample size
replace = FALSE)