我想在python中对数据帧库进行采样。这个样本必须按照特定的变量进行分层。我尝试了sklearn.cross_validation,但问题是你只能用一个变量进行分层,我需要根据几个变量来划分我的总体。
所以我要找的是相当于proc调查的(SAS中的地层指示)或svydesign(R中)。这个函数在python中存在吗?
我在这个页面上发现了函数layeried_sampleshttps://gist.github.com/spacelis/6088623但是没有文档或使用示例,很难理解如何输入分层变量。
感谢您的帮助
这是一个老问题,但为了那些从搜索中到达这里的人的利益:
Python中有一个相对较新的包,名为samplics
。这相当于R中的survey
库。我在SAS方面没有经验,尽管我想它也应该涵盖这一点。
samplics
的构建涵盖了复杂调查设计的许多方面,包括抽样、加权和估计。github页面上有一个按位置采样的示例。
其他感兴趣的软件包(尽管文档略为稀疏):
- Quantopy
- Panda调查