小贝子编程

如何在Pyspark中使用不同的模式读取不同的CSV文件

本文关键字：模式读取文件 CSV Pyspark python pyspark apache-spark-sql
更新时间 : 2023-09-10
英文 : how to read different csv files with different schema in pyspark

我有一个文件夹，其中包含SQL文件（用于架构）和zipped文件（CSV文件），我想将使用相同架构读取的文件读取一个数据框架，因此对于不同的模式，pyspark中的帧。

我的文件夹结构看起来像这样：

abc.sql
abc1.gz
abc2.gz
def.sql
def1.gz
def2.gz

等等...

如何继续

您只需要添加inferSchema参数并将其设置为True：

data = spark.read.csv([DATA_PATH], inferSchema = True, header = True, sep = ";")

最新更新

c语言 - 编译PostgreSQL扩展，获取"error: ‘work_mem’ undeclared (first use in this function)"
JSON String {String: String[]}的最佳Typescript类型
如何在SwiftUI中播放svga动画
React search and filter: TypeError: setFilterFn不是一个函数
int数组在Java中不包含期望的值
Azure Portal ： Azure Cosmos Db Account ： Networking ： "There is already an operation in progress tha
未正确激活小数最大值验证
在arm模板输出中使用条件语句形成SQL DB连接字符串
c-操作系统互斥
c -在多应用程序CMake项目中，在静态库中包含特定于应用程序的头文件
为集成测试/@SpringBootTest提供bean时出现BeanDefinitionOverrideExceptio
c - Shift 1和乘法vs直接移位
需要帮助并行c++程序与OpenMP
r语言 - Lmer表示重复测量
我如何将下载的图片粘贴到我的计算机在我的flutter项目中的图像文件夹中?
不确定输入在下面的代码中是如何分解的
如何使用Rpc在统一光子(脚本不工作)
r语言 - 使用gtsummary在表中排序回归变量
如何构建一个事务安全的内存数据库?酸度是关键
ios TestFlight -邀请链接未到达
如何更改要下载的文件的名称?
如何在下一个js持久化布局中传递动态道具
如何操作axios响应并返回承诺?
在上下文提供程序中使用React query 4使查询无效会产生意想不到的结果
无法更新用于计数字母的对象属性编号(计数器)
在PowerShell中传递非文字脚本变量给Invoke-Sqlcmd错误
更改docker/superset中的密钥时出现问题
bs4不返回完整的HTML
重复第n个数字，直到第n个匹配，同时在模式上使用awk sub为这些数字添加前缀
我怎么能添加按钮后在Discord.py?

如何在Pyspark中使用不同的模式读取不同的CSV文件

相关内容

最新更新

热门标签：