小贝子编程

将databricks中的pyspark dataframe列转换为列表而不使用rdd

本文关键字：列表 rdd 转换中的 databricks pyspark dataframe list pyspark databricks rdd flatmap
更新时间 : 2023-09-22
英文 : convert a pyspark dataframe column in databricks as a list without using rdd

我试图收集databricks中pyspark dataframe列的值作为列表。

当我使用collect函数

df.select('col_name').collect()

，我得到一个带有额外值的列表。

基于某些搜索的，使用.rdd.flatmap()将达到这个目的

然而，出于一些安全原因(它说rdd不在白名单中)，我不能执行或使用rdd。是否有其他方法可以将列值收集为列表?

如果你有一个小的数据框架，假设你只有一列，我建议将它转换为pandas数据框架，并使用tolist()函数。

pdf = df.toPandas()
pdf_list = pdf['col_name'].tolist()

你的输出应该像下面这样:

['value1','value2','value3']

希望对你有帮助

最新更新

Textarea Label in Form: Error: Label元素的for属性的值必须是一个非隐藏表单控件的I
如何在没有源文件的情况下使用XSL创建XML
通过指针在实例上实现类型的调用函数
在批处理脚本中替换而不是添加前缀
如果类没有初始化，c++编译器会生成一个defctor吗?
在我的代码中没有得到任何方程的答案，我的按钮进入我的字段
vsto Outlook插件在Outlook 2016和Office 365中的行为不同
npm install不会在我的React项目中安装任何node模块
用两次检查遍历两个列表
将图像转换为RGB格式的文本文件，格式为三逗号分隔
我正试图找到一种方法将TimeSpan变量转换为秒的整数量
FCM云消息传递验证令牌
C多重间接
显示数组中元素的倒计时。setInterval 不会导致延迟。最后一个元素立即显示
sveltekit:等待来自+服务器的数据.t加载函数
JQuery是:检查每次点击返回两个值
RxJS中具有共享结果的请求队列
Beautifulsoup如何添加一些东西到列，如果元素没有显示
在Jekyll blog中按2D位置(距离)搜索
Robocopy在复制过程中向文件名添加日期
c -间接递归的用例
如何将日期对象转换为格式(DD-MM-YYYY)
如何从没有使用python硒链接的网站下载文件?
用错误处理循环捕获用户输入的最佳方法
如何使用内部连接在php发送值从下拉菜单到数据库的两个不同的表
我如何得到一个状态的IISreset - true，如果它是启动和false，如果它是停止
如何复制列标题"Testing"的列
读取文件夹中的多个DOCX文件到多个dataframe时出错
无法下载InceptionV3 Keras
如何打印数据在模板django的一个不同的表由外键连接?

将databricks中的pyspark dataframe列转换为列表而不使用rdd

相关内容

最新更新

热门标签：