输入:
- 我有一个图像的数组
X
,其中每一行都是代表一个人的例子 - 另一个数组CCD_ 2用于它们的标签,其中标签是介于1和7之间的整数
- 以及
ids
的最后一个数组,其中ids[i]
表示X[i]
处的第i个人的id。(同一个人有相同的身份证,同一个人可能有不同的照片。)
是否可以对X
和y
进行分区,使同一个人不同时进入测试和训练集?
我认为我需要使用sklearn.cross_validation.train_testrongplit。有人能解释一下"分层"的作用吗?这是做我想做的事情的正确方法吗?
分层采样意味着sklearn
将尝试将训练和测试拆分中的类的比率与整体数据的比率相匹配。
y标签中包含哪些信息?听起来您需要像LabelKFold或LabelShuffleSplit这样的东西,其中标签在您的情况下将是ids
。