小贝子编程

通过Spark读取时忽略损坏的兽人文件

本文关键字：损坏兽人文件 Spark 读取通过 scala apache-spark orc
更新时间 : 2023-09-21
英文 : Ignoring corrupted Orc files when reading via Spark

我在HDFS中有多个Orc文件，目录结构如下：

orc/
├─ data1/
│  ├─ 00.orc
│  ├─ 11.orc
├─ data2/
│  ├─ 22.orc
│  ├─ 33.orc

我正在使用Spark:读取这些文件

spark.sqlContext.read.format("orc").load("/orc/data*/")

问题是其中一个文件已损坏，所以我想跳过/忽略该文件。

我看到的唯一方法是获取所有兽人文件，并在将其传递给Spark之前逐一验证(通过读取它们(。但这样的话，我会把同样的文件读两遍。

有什么办法可以避免我把文件读两遍吗？Spark对此有什么提供吗？

这将帮助您：

spark.sql("set spark.sql.files.ignoreCorruptFiles=true")

最新更新

无法连接iPhone与xcode
正在创建globals()的副本
如何使用gstreamer从HLS流获取EXT-X-PROGRAM-DATE-TIME ?
如何在不刷新支柱的情况下测试salt - minion与saltmaster的连通性?
在创建后添加子对象到PSObject
c - Gstreamer:如何直接从buffer_list创建视频|在Gstreamer中创建循环缓冲区
使用BFS算法遍历图后打印最短路径
如何在WINDOWS上使用公钥认证登录ssh-server ?
使用函数.在Woocommerce中，我如何隐藏缺货的简单产品?
在Xmonad中为特定窗口配置无边框
如何在aspx c#中获取客户端Ip地址或客户端/用户机器名
是否有可能在不使用GTM的情况下查看特定页面上点击了哪些链接?
根据年份 R 创建"时间段"索引变量
R函数在管道中使用时不起作用
React Native ios在Mac M1上构建失败
pymysql.err.programmingError: (1064)
Start返回0xE00002C7如果我的驱动程序继承IOUserUSBSerial
我如何传递一个特定的项目属性到一个变量在PowerShell?
基于SQL Server中某列的聚合，从单个记录生成多个记录
属性错误：模块"tensorflow.keras.callbacks"没有属性"BackupAndRestore"
r语言 - 重命名数据框架而不将其写入全局环境
请求如何同时来自EC2实例和客户端机器?
使用ms图修改附件出现问题
使用laravel matwebsite只导入第二行的标题行
如何使用R Package将Tweedie GLM中的色散参数设置为1 (phi=1)
如何在c++中找到文件中不同组字符的总数
PNG不显示在react tsx页面没有错误
如何实现导航元素的过渡效果?
Use effect运行在依赖条件[count == 2]的下一个值检查上
实体框架更新一条记录删除另一条记录

通过Spark读取时忽略损坏的兽人文件

相关内容

最新更新

热门标签：