>我有一个包含 15 条记录的 csv 文件,其中包含类别/子类别。
列数:Main_category,Sub_category,计数
期望结果:类别,Sub_cat1,50
我用Python熊猫尝试了一下,得到了上面的结果:
test = pd.DataFrame(df.groupby(['Main_category','Sub_category']['Sub_category'].count())
我正在尝试在 R 中使用 sqldf 实现相同的目标,但没有获取类别的每个子类别的计数。它只显示总数:
sqldf("select Main_category, Sub_category, count(*) from MyData group by Main_category")
如果我只看一下SQL查询,似乎你必须按聚合维度(Main_category
和Sub_category
)进行分组,以便SQL查询甚至可以在大多数SQL语言中编译:
sqldf("select Main_category, Sub_category, count(*) from MyData group by Main_category, Sub_category")