使用随机样本填充新的 Google 表格表格,其中包含至少 X 个给定属性的样本



我有一个数据集,我想从中随机抽取样本并放入新工作表中。我有一个额外的约束/分层:我想要每个给定属性的 X 个示例。

例如,如果 COL A 有 5 行苹果、5 行香蕉等,我想要一个随机样本,其中包括 2 个苹果行、2 个香蕉行等,以此类推,以尽可能多的 COL A 值。

我得到了一个公式来用随机样本填充新工作表:

A1: =ArrayFormula(FILTER( SORT('My list of 100000 rows'!A:A ;RANDBETWEEN( 0+ROW('My list of 100000 rows'!A:A) ; ROWS('My list of 100000 rows'!A:A)); TRUE); ROW('My list of 100000 rows'!A:A)<=100))

但这并不能使我能够选择每个唯一属性的最小或确切数量的实例。

任何建议不胜感激!

我想要一个随机样本,其中包括 2 个苹果行、2 个香蕉行等,用于尽可能多的 COL A 值。

在数据的左侧和 A1 中插入两列:

=choose(randbetween(1,10),"12","13","14","15","23","24","25","34","35","45")

在 B1 中并复制到适合:

=countif(C$1:C1,C1)

然后:

=query(A:D,"select C,D where B contains '"&left(A1)&"' or B contains '"&right(A1)&"' ")

最新更新