小贝子编程

Pyspark DataFrame中的引用列

本文关键字：引用 DataFrame Pyspark python apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-07
英文 : Referencing columns in Pyspark DataFrame

假设我有一个我转换为数据框架的单词列表

  -----
| word |
  -----
| cat  |
| bird |
| dog  |
| ...  |
  -----

我试图做一个字母计数：

from pyspark.sql.functions import length
letter_count_df = words_df.select(length(words_df.word))

我知道这仅是一个只有单列的数据框。

如何不使用alias？

参考letter_count_df的唯一列

  -------------
| length(word) |
  -------------
|           3  |
|           4  |
|           3  |
|         ...  |
  -------------

带有名称：

>>> letter_count_df.select(c)
DataFrame[length(word): int]

或col和名称：

>>> from pyspark.sql.functions import *
>>> letter_count_df.select(c))

c是常数：

>>> c = "length(word)"

或

>>> c = letter_count_df.columns[0]

最新更新

正确解析jobobject
如何使用Hedera JS SDK生成一组基于BIP-39种子短语和自定义派生路径的ECDSA密钥对?
Java 8流嵌套ForEach与不同的条件
如何对包含句点(.)的关键字进行语法高亮显示?
属性图像 URL 在类型 {} 上不存在
写一个约束来强制一个值至少出现一次
基于锚展开手风琴
React+Jest:每当我试图访问DOM属性(即:toHaveStyle)时，测试将永远挂起
如何在WPF中显示数据网格中的用户输入?
如何在特定端口运行mongo docker实例
匕首柄-碎片绑定为空?
在flask中使用WTFORMS和SQAlchemy更新值
不等式运算符无法解析boolean和int数据类型
GSUB替换3个或更多的重复字符
如何使用新的RenderEffect库模糊视图?
Oracle 19c upgrade: JDBC error java.sql.SQLRecoverableExcept
如何找到和解析行在文本文件开始与某些文本?
入口:目录级别参数
我如何重构下面的代码，以允许我在chatGPT中生成连贯和流畅的文档?
在typescript中添加eventlistener到nodelist
c -为什么我的内核崩溃时，我添加更多的参数到一个函数?
MySQL表锁和Next-Key lock的行锁有什么区别?
如何在不打开电子邮件应用程序的情况下从锚标记中抓取电子邮件id
PHP和OCI8在连接时产生HTTPd Segmentation Fault(不是每次)
将一个仅包含正数据的列表归一化为包含负值和正值的范围
当使用Link导航时，带有next-redux-wrapper状态的 Next.js被重置为初始值
在c#中从url字符串中获取数字部分
r语言 - 合并没有重复行和NA值的数据帧
Minecraft Bukkit -右键单击村民时自定义GUI
如何检查datetime列中缺少哪些值

Pyspark DataFrame中的引用列

相关内容

最新更新

热门标签：