计算比例Py(Spark)的置信区间



我正在使用以下函数计算pyspark中的性别比例。

除此之外,我还想在python中计算一个比例的置信区间,例如在一个样本中计算比例的置信间隔

所以我应该有一个/两个额外的列,其中包含lower_ci&上部_ ci

import pyspark.sql.functions as F
def gender_prop(df, grp):
test_df = df.filter( 
F.col('GENDER').isin(['0','F'])
).groupBy(grp).agg(
F.mean(
F.when(F.col('GENDER') == F.lit('M'), 1.0).otherwise(0.0)
).alias('gender_score'),
F.count(F.lit(1)).alias('total')
).filter('no_of_streams > 100')
return test_df
df = gender_prop(df, 'title')
display(df)
title   gender_prop            total
1 ABC    0.2749954192878519     491190
2 CART   0.5417543859649123     320625
3 NUMB   0.3385603833169988     275490
4 PRO    0.24459397661200757    229605
5 SHOW   0.2673127254721652     212055

很抱歉说得很含糊,所以基本上我想在pyspark中做一些事情,作为这个例子

import pandas as pd
import numpy as np
import math
df=pd.DataFrame({'Class': ['A1','A1','A1','A2','A3','A3'], 
'Force': [50,150,100,120,140,160] },
columns=['Class', 'Force'])
print(df)
print('-'*30)
stats = df.groupby(['Class'])['Force'].agg(['mean', 'count', 'std'])
print(stats)
print('-'*30)
ci95_hi = []
ci95_lo = []
for i in stats.index:
m, c, s = stats.loc[i]
ci95_hi.append(m + 1.96*s/math.sqrt(c))
ci95_lo.append(m - 1.96*s/math.sqrt(c))
stats['ci95_hi'] = ci95_hi
stats['ci95_lo'] = ci95_lo
print(stats)

我很感激你的帮助提前感谢

您的第一个代码片段有许多不清楚的过滤器,但想法如下:

import pyspark.sql.functions as F
def gender_prop(df, grp):
col = F.when(F.col('GENDER') == F.lit('M'), 1.0).otherwise(0.0)
return df.groupBy(grp).agg(
F.mean(col).alias('avg'),
F.count(F.lit(1)).alias('total'),
F.stddev(col).alias('std')
).withColumn(
'ci95_hi',
F.col('avg') + 1.96 * F.col('std') / F.sqrt(F.col('total'))
).withColumn(
'ci95_lo',
F.col('avg') - 1.96 * F.col('std') / F.sqrt(F.col('total'))
)

最新更新