我有一个包含 400K 观测值和 250 个特征的数据集。我想执行分层抽样。
我引用了许多链接,但它们都是在 1 或两个变量示例(包括 Target(之后。
任何人都可以帮助我如何使用R/Python执行分层采样。
感谢阿达文斯!
如果你首先对 data.frame 进行分组,你可以使用 dplyr 的 sample_n(( 对每个组进行采样。
library(dplyr)
sample.df <- df %>% group_by( ID ) %>% sample_n( 10 )