小贝子编程

Pyspark错误:读取tsv.gz数据帧每次读取0行，即使源中有行

本文关键字：读取 0行错误 tsv gz 数据帧 Pyspark apache-spark pyspark azure-blob-storage databricks
更新时间 : 2023-09-22
英文 : Pyspark error : reading a tsv.gz dataframe reads 0 rows each time even though there are rows in source

我有以下代码;

test_df = (spark.read
.schema(newSchema)
.option("header", "true")
.option("delimiter", "t").csv("wasbs://container@AzureStorageAcc.blob.core.windows.net/dir1/dir2/2021/02/05/"))

但这似乎不起作用。是否有其他的方法来读取tsv.gz作为一个火花数据框架?

尝试从命令中删除.format("cloudFiles")，这仅用于处理结构化流，我怀疑它可能会干扰.csv。

最新更新

每个脚本发送GDoc / GSheet
apoc.col .zip()的一些奇怪的结果
unboundfield对象不可调用
在jQuery刀片文件中使用php larval helper函数
排序颜色，似乎不明白出了什么问题
在supabase的颤振sdk中，如何使用.contains("group_members"，[my_uid])之类的东西过滤流？
为什么我无法在 AWS API Gateway 中访问我的 REST API？
Roku RAF在连续播放视频时抛出错误
JSON的树层次图从SQL Server
GWT应用程序中的POST请求
Azure管道未运行
在Mac上的VS Code中包含Boost(未找到文件)
如何使用字典分离重复值和唯一值
每个keyIsDown对应一个函数
React在获取数据后不渲染数组
c++概念和转换问题
用于持有移动注册令牌的最佳数据结构
我怎么能得到Webpack解析JSX在我的index.js?
java.lang.IllegalArgumentException: API声明必须是接口
将ENI中继附加到cloudformation中的自定义安全组
我可以使用findFiles没有脚本标签的詹金斯声明式管道?
如何使用JPQL编写带有where子句的左连接
清理sphinx-doc原型类型
如何在AWS API网关前设置AWS应用程序负载均衡器
投影矩阵与全息透镜1上的PhotoCapture不可用
不能为所有连接的客户端更改标签的内容
p2p chat on python
nodejs中buffer的用例
从Jenkins过渡到Github Actions
是否可以在不访问其聊天的情况下下载团队会议记录?

Pyspark错误:读取tsv.gz数据帧每次读取0行，即使源中有行

相关内容

最新更新

热门标签：