Pyspark将名称分配给列AGG输出



说我有这样的数据框架:

import pyspark
import pyspark.sql.functions as sf
import pyspark.sql.types as sparktypes
import datetime
sc = pyspark.SparkContext(appName="test")
sqlcontext = pyspark.SQLContext(sc)
rdd = sc.parallelize([('a',datetime.datetime(2014, 1, 9, 0, 0)),
                      ('b',datetime.datetime(2014, 1, 27, 0, 0)),
                      ('c',datetime.datetime(2014, 1, 31, 0, 0))])
testdf = sqlcontext.createDataFrame(rdd, ["id", "date"])
print(testdf.show())
print(testdf.printSchema())

给出一个测试数据框:

+---+--------------------+
| id|                date|
+---+--------------------+
|  a|2014-01-09 00:00:...|
|  b|2014-01-27 00:00:...|
|  c|2014-01-31 00:00:...|
+---+--------------------+

root
 |-- id: string (nullable = true)
 |-- date: timestamp (nullable = true)

我想获得日期列的最大值:

max_date = testdf.agg(sf.max(sf.col('date'))).collect()
print(max_date)

给出:

[Row(max(date)=datetime.datetime(2014, 1, 31, 0, 0))]

如何在原始操作本身中应用自定义名称以出现而不是自动分配的max(date),例如max_date,以便我可以访问该值作为max_date[0]['max_date']而不是max_date[0][0]max_date[0]['max(date)'],也有更好的方法来访问此值,有些row()的属性?

您的意思是吗?

max_date = testdf.agg(sf.max(sf.col('date')).alias("newName")).collect()

至于一种更好的访问方法。并不真地。收集带来的行列表,您需要告诉您需要哪个列,以便您使用:

max_date[0]['newName']

您不能比这短...

相关内容

  • 没有找到相关文章

最新更新