假设我有一个我转换为数据框架的单词列表
-----
| word |
-----
| cat |
| bird |
| dog |
| ... |
-----
我试图做一个字母计数:
from pyspark.sql.functions import length
letter_count_df = words_df.select(length(words_df.word))
我知道这仅是一个只有单列的数据框。
如何不使用alias
?
letter_count_df
的唯一列 -------------
| length(word) |
-------------
| 3 |
| 4 |
| 3 |
| ... |
-------------
带有名称:
>>> letter_count_df.select(c)
DataFrame[length(word): int]
或col和名称:
>>> from pyspark.sql.functions import *
>>> letter_count_df.select(c))
c
是常数:
>>> c = "length(word)"
或
>>> c = letter_count_df.columns[0]