如何创建具有钻取功能的新数据框架

我认为我的问题很简单，但我已经做了一个很长的帖子是为了彻底。

我需要可视化一些数据，但首先我需要执行一些在Tableau中看起来太麻烦的计算(如果我说Tableau很糟糕，我是不是很讨厌!)

我有一个普遍的问题，如何输出数据与我的计算在一个很好的格式，可以可视化无论是在Tableau或其他东西，所以它需要挂在大量的信息。

我的数据集是根据用户id与应用程序的使用相关联的一些字段。因此，每个用户id可能有多个条目，每个条目(记录)在列中都有信息，例如他们开始使用应用程序的时间，结束时间，他们支付的价格，他们是否在wifi上，以及其他属性(维度)。

我有一年的数据，并想做的事情，如计算平均/总持续时间/在应用程序中支付的价格在每个月和每个用户的全年(记住每个用户将出现多次-每次他们登录)。

我知道一些基础知识，比如添加一个列，从结束时间中减去开始时间以获得花费的时间，我的python功能完备，但我的数据能力是业余的。

我的问题是，假设我想计算以下属性(度量)(每个用户id):平均价格、总价格、最大/最小价格、中位数价格、平均持续时间、总持续时间、最大/最小持续时间、中位数持续时间和登录次数(即id的实例数)，并且所有这些都以每月和每年为基础。我知道我可以计算这些东西，但是什么是最好的方式来存储它们用于可视化?

上下文,我可能需要可视化的用户组平均支付超过8美元,应用超过3小时(这一点可以创建一个简单的新表信息)但是,如果我想要它的显示他们看了,他们是否在wifi(原始数据集中的其他属性),我想看到它分解月度,似乎在我的新表的计算不会削减它。

那么最好创建一个年度表和一个每月表，总共13个表，其中每个表包含该时间段内的用户id和所有原始信息，然后为每个计算附加一列(如果计算是avg，那么我为id的每个实例输入相同的值)?

我搜索并发现，也许在R中的plyr功能将是有用的，但我非常熟悉python和使用ippython。所有我需要的是一个很好的数据集与所有这些信息，然后可以导出到一个可视化软件，除非你也可以建议可视化工具在ippython:)

任何帮助都非常感激，我非常希望在python中这样做是有意义的，因为tableau对于计算方面的事情来说只是痛苦的....请帮忙:)

听起来您想要像这样运行一个数据库查询:

SELECT user, show, month, wifi, sum(time_in_pp)
GROUP BY user, show, month, wifi
HAVING sum(time_in_pp) > 3

将其放入数据库并使用pandas sql接口或普通python查询运行查询。假设您在这些列上索引数据库表。

相关内容

最新更新

热门标签：