小贝子编程

使用 PySpark 阅读简单的 csv

本文关键字：csv 简单 PySpark 使用 csv pyspark data-science-experience
更新时间 : 2023-09-17
英文 : Read simple csv with PySpark

可能是一个愚蠢的问题，但我不明白。我正在开发一个带有Python3.6，Spark 2.4的Jupyter Notebook，由IBM Watson Studio托管。

我有一个简单的csv文件：

num,label
0,0
1,0
2,0
3,0

为了阅读它，我使用以下命令：

labels = spark.read.csv(url, sep=',', header=True)

但是，如果我使用labels.head()检查labels是否正确，我会得到Row(PAR1Љ��L�Q�� ='x08x00]')

我错过了什么？

这看起来像是由于编码问题

使用选项中提供的编码尝试此操作，alo 尝试使用 UTF-8

labels = spark.read.csv(url, sep=',', header=True).option("encoding", "ISO-8859-1")

最新更新

ffmpeg/映射代码的几个输出
r语言 - 在部署到shinyapps.io的Shiny应用中使用readClipboard()的问题 &
如何适应事件SelectionChange代码在事件计算工作?
类型错误：.map 不是一个函数不明白出了什么问题
在Rust中定义无限嵌套HashMap
为什么有些符号表达式没有简化？
如何在aws上自动执行jupyter笔记本?
form如何对一个已经存在的关系进行插入
在特定元素上拆分int数组
如何在supervisor中记录所有FATAL进程?
linux kernel fs/buffer.c 中的函数名称 "brelse" 代表什么？
使用lru_cache和__hash__缓存对象实例
是否可以在 CQL 中"get records older than N days"？
处理Rust中所谓的全局变量
如何在Javascript中连接for循环中的字符串
非原生Wordpress字段的Wordpress表单提交数据存储
ADB中未知命令tcip
如何编写一个检查输入是否符合语法的程序?
如何同时在不同的表中创建和更新数据- Laravel 9
如何将类方法作为事件添加到html按钮中
验证的最大字符数不能正常工作
调用未定义方法FFMpegMediaVideo::addWatermark()
如何将字符串读入string类的对象?
处理同一路径下的多个参数
如何获得在Java中作为lambda参数传递的方法名
Python迭代行与复杂的计算比当前代码更快的方式
如何将可选参数传递到中间件from_fn函数在axum?
如何有效地在网络上发送受约束的双值
如何在没有显式导入组件的情况下使用ve3 (Vite)的渲染功能中的自动导入组件?
在' tortoise.field.ForeignKeyField '中使用关键字' related_name '.&l

使用 PySpark 阅读简单的 csv

相关内容

最新更新

热门标签：