我有一个数据集,我想从中随机抽取样本并放入新工作表中。我有一个额外的约束/分层:我想要每个给定属性的 X 个示例。
例如,如果 COL A 有 5 行苹果、5 行香蕉等,我想要一个随机样本,其中包括 2 个苹果行、2 个香蕉行等,以此类推,以尽可能多的 COL A 值。
我得到了一个公式来用随机样本填充新工作表:
A1: =ArrayFormula(FILTER( SORT('My list of 100000 rows'!A:A ;RANDBETWEEN( 0+ROW('My list of 100000 rows'!A:A) ; ROWS('My list of 100000 rows'!A:A)); TRUE); ROW('My list of 100000 rows'!A:A)<=100))
但这并不能使我能够选择每个唯一属性的最小或确切数量的实例。
任何建议不胜感激!
我想要一个随机样本,其中包括 2 个苹果行、2 个香蕉行等,用于尽可能多的 COL A 值。
在数据的左侧和 A1 中插入两列:
=choose(randbetween(1,10),"12","13","14","15","23","24","25","34","35","45")
在 B1 中并复制到适合:
=countif(C$1:C1,C1)
然后:
=query(A:D,"select C,D where B contains '"&left(A1)&"' or B contains '"&right(A1)&"' ")