仅从数据框的任何标识行提取字段的值(而不是命名值)



我正在学习pySpark,有一个问题,我认为是一个基本的问题,但我无法破解它。

假设我有以下代码

lettersDF = sqlContext.createDataFrame([('A',), ('B',), ('C',), ('D',), ('E', )], ['word'])

现在我想打印列'word'的第三行

print lettersDF.head(3)[2] 
Row(word=u'C')

我只想打印'C'..我该怎么做呢?我不想要这样的"字典"输出,而是想要一个像输出

这样的"列表"。

有人可以解释如何头(),尾(),采取()和第一()或类似的"行动"关键字的工作?不知怎么的,我觉得我错过了一些基本的东西

是的,它是一个Row对象(pyspark.sql.types.Row),您可以转换它

print lettersDF.head(3)[2].asDict()
{'word': u'C'}

最新更新