蟒蛇的分层采样



我想在python中对数据帧库进行采样。这个样本必须按照特定的变量进行分层。我尝试了sklearn.cross_validation,但问题是你只能用一个变量进行分层,我需要根据几个变量来划分我的总体。

所以我要找的是相当于proc调查的(SAS中的地层指示)或svydesign(R中)。这个函数在python中存在吗?

我在这个页面上发现了函数layeried_sampleshttps://gist.github.com/spacelis/6088623但是没有文档或使用示例,很难理解如何输入分层变量。

感谢您的帮助

这是一个老问题,但为了那些从搜索中到达这里的人的利益:

Python中有一个相对较新的包,名为samplics。这相当于R中的survey库。我在SAS方面没有经验,尽管我想它也应该涵盖这一点。

samplics的构建涵盖了复杂调查设计的许多方面,包括抽样、加权和估计。github页面上有一个按位置采样的示例。

其他感兴趣的软件包(尽管文档略为稀疏):

  • Quantopy
  • Panda调查

最新更新