如何创建具有钻取功能的新数据框架



我认为我的问题很简单,但我已经做了一个很长的帖子是为了彻底。

我需要可视化一些数据,但首先我需要执行一些在Tableau中看起来太麻烦的计算(如果我说Tableau很糟糕,我是不是很讨厌!)

我有一个普遍的问题,如何输出数据与我的计算在一个很好的格式,可以可视化无论是在Tableau或其他东西,所以它需要挂在大量的信息。

我的数据集是根据用户id与应用程序的使用相关联的一些字段。因此,每个用户id可能有多个条目,每个条目(记录)在列中都有信息,例如他们开始使用应用程序的时间,结束时间,他们支付的价格,他们是否在wifi上,以及其他属性(维度)。

我有一年的数据,并想做的事情,如计算平均/总持续时间/在应用程序中支付的价格在每个月和每个用户的全年(记住每个用户将出现多次-每次他们登录)。

我知道一些基础知识,比如添加一个列,从结束时间中减去开始时间以获得花费的时间,我的python功能完备,但我的数据能力是业余的。

我的问题是,假设我想计算以下属性(度量)(每个用户id):平均价格、总价格、最大/最小价格、中位数价格、平均持续时间、总持续时间、最大/最小持续时间、中位数持续时间和登录次数(即id的实例数),并且所有这些都以每月和每年为基础。我知道我可以计算这些东西,但是什么是最好的方式来存储它们用于可视化?

上下文,我可能需要可视化的用户组平均支付超过8美元,应用超过3小时(这一点可以创建一个简单的新表信息)但是,如果我想要它的显示他们看了,他们是否在wifi(原始数据集中的其他属性),我想看到它分解月度,似乎在我的新表的计算不会削减它。

那么最好创建一个年度表和一个每月表,总共13个表,其中每个表包含该时间段内的用户id和所有原始信息,然后为每个计算附加一列(如果计算是avg,那么我为id的每个实例输入相同的值)?

我搜索并发现,也许在R中的plyr功能将是有用的,但我非常熟悉python和使用ippython。所有我需要的是一个很好的数据集与所有这些信息,然后可以导出到一个可视化软件,除非你也可以建议可视化工具在ippython:)

任何帮助都非常感激,我非常希望在python中这样做是有意义的,因为tableau对于计算方面的事情来说只是痛苦的....请帮忙:)

听起来您想要像这样运行一个数据库查询:

SELECT user, show, month, wifi, sum(time_in_pp)
GROUP BY user, show, month, wifi
HAVING sum(time_in_pp) > 3

将其放入数据库并使用pandas sql接口或普通python查询运行查询。假设您在这些列上索引数据库表。

最新更新