小贝子编程

Pyspark查询多个JSON文件

本文关键字：JSON 文件查询 Pyspark json apache-spark pyspark apache-spark-sql
更新时间 : 2023-09-07
英文 : PySpark Querying Multiple JSON Files

我已上传到 Spark 2.2.0中，使用命令（python spark）在目录中包含的许多JSONL文件（所有这些结构都相同）：df = spark.read.json（myDirectory）df.createglobaltempview（" mydatabase"）sqldf = spark.sql（"从mydatabase"中select count（*））sqldf.show（）。

上传有效，但是当我查询sqldf（ sqlDF.show()）时，似乎火花仅计数一个文件的行（第一个？），而不是所有文件的行。我假设" myDatabase"是包含所有文件的数据框。

我缺少什么？

如果我仅上传一个仅由多个JSON对象的一行组成的文件{...}，Spark可以正确识别表格结构。如果我有多个文件，我必须将每个{}放在新行上以获得相同的结果。

最新更新

当使用索引而不是词引用SET成员时，无法使用REPLACE更新表中的MySQL SET数据类型 &g
旅游产品库存和数量
AWS Sagemaker输出如何读取文件与多个json对象分布在多行
根据类别级别进行排序
如何在chrome扩展中获得令牌?
在Julia中定义抽象类型的默认方法
无法启动新的Nextjs应用程序
nasm x86-64，超过值时单词比较出现问题
如何使用多处理池与列表?
不能使标签固定在顶部的导航栏部分后，点击
在.net中实现一个API服务，向Apple Wallet发送后台通知
如何在React中创建动态表单
写入使用导入流链接模块或运行子进程或操作系统.系统命令吗?
如何通过http创建远程git存储库
如何在Background-image:url中调用vue.js对象
不能转义带有计时器的for循环
SQL Server 中的术语"列"和"字段"之间有什么区别？
如何在gradle多模块项目中创建可重用的任务?
如何结合RXJS后的结果?
SQL Row Count Over Partition By
Lombok:在构造函数中只生成几个参数的注释
复选框setTextPosition(TOP)不工作
CSRF验证失败.请求中止-即使添加了{% csrf_token %}
使用 psql 的复制语句时如何压缩数据？
如何在Flutter中更改键盘
FXMLLoader无法找到JavaFX类，但手动创建JavaFX创建工作
尝试用Intent解释Android Studio中的Java方法
"无法获取/api/items"
如何使用PowerShell确认系统初始化完成?
将值从文本框传递给actionlink

Pyspark查询多个JSON文件

相关内容

最新更新

热门标签：