我想获得一些关于我的数据帧的描述性统计信息:
# Initialize SparkR Contexts
library(SparkR) # Load library
sc <- sparkR.init(master="local[4]") # Initialize Spark Context
sqlContext <- sparkRSQL.init(sc) # Initialize SQL Context
# Load data
df <- loadDF(sqlContext, "/outputs/merged.parquet") # Load data into Data Frame
# Filter
df_t1 <- select(filter(df, df$t == 1 & df$totalUsers > 0 & isNotNull(df$domain)), "*")
avg_df <- collect(agg(groupBy(df_t1, "domain"), AVG=avg(df_t1$totalUsers), STD=sd(df_t1$totalUsers, na.rm = FALSE)))
head(avg_df)
我得到这个错误:
Error in as.double(x) :
cannot coerce type 'S4' to vector of type 'double'
其由CCD_ 1产生。我尝试使用var()
并获得Error: is.atomic(x) is not TRUE
。当我只使用avg()
时没有错误。
我的问题与此不同,因为我没有使用这些包,读到这篇文章,我明白出于某种原因,我的df_t1$tutoalUsers
是类型S4
,而不是双向量,所以我尝试铸造它,但没有效果:
avg_df <- collect(agg(groupBy(df_t1, "domain"),AVG=avg(df_t1$totalUsers), STD=sd(cast(df_t1$totalUsers, "double"),na.rm = FALSE)))
想法?
编辑:模式是
> printSchema(df_t1)
root
|-- created: integer (nullable = true)
|-- firstItem: integer (nullable = true)
|-- domain: string (nullable = true)
|-- t: integer (nullable = true)
|-- groupId: string (nullable = true)
|-- email: integer (nullable = true)
|-- chat: integer (nullable = true)
我的Spark版本是1.5.2
您使用的是Spark 1.5,它不提供更高级的统计摘要,并且在Spark DataFrame
上操作时不能使用标准的R函数。avg()
之所以有效,是因为它实际上是Spark 1.5中可用的Spark SQL函数。
Spark 1.6中引入了其他统计摘要,包括计算标准差(sd
、sd()
0、stddev_samp
和stddev_pop
)和方差(var
、variance
、var_samp
和var_pop
)的方法。当然,您仍然可以使用众所周知的公式来计算标准偏差,如Calculate the standard deviation of grouped data in a Spark DataFrame