Pyspark DataFrame中的引用列



假设我有一个我转换为数据框架的单词列表

  -----
| word |
  -----
| cat  |
| bird |
| dog  |
| ...  |
  -----

我试图做一个字母计数:

from pyspark.sql.functions import length
letter_count_df = words_df.select(length(words_df.word))

我知道这仅是一个只有单列的数据框。

如何不使用alias

参考letter_count_df的唯一列
  -------------
| length(word) |
  -------------
|           3  |
|           4  |
|           3  |
|         ...  |
  -------------

带有名称:

>>> letter_count_df.select(c)
DataFrame[length(word): int]

或col和名称:

>>> from pyspark.sql.functions import *
>>> letter_count_df.select(c))

c是常数:

>>> c = "length(word)"

>>> c = letter_count_df.columns[0]

相关内容

  • 没有找到相关文章

最新更新