小贝子编程

Query hdfs with Spark Sql

本文关键字：Sql Spark with hdfs Query hadoop apache-spark hdfs apache-spark-sql
更新时间 : 2023-09-07
英文 : Query hdfs with Spark Sql

我在HDFS中有一个CSV文件，如何使用Spark SQL查询此文件？例如，我想在特殊列上提出一个选择的请求，并将结果再次存储到Hadoop分布式文件系统

谢谢

您可以通过创建DataFrame来实现。

val dataFrame = spark.sparkContext
  .textFile("examples/src/main/resources/people.csv")
  .map(_.split(","))
  .map(attributes => Person(attributes(0), attributes(1).trim.toInt))
  .toDF()
dataFrame.sql("<sql query>");

您应该创建一个火花。一个例子在这里。
加载一个CSV文件：val df = sparkSession.read.csv("path to your file in HDFS")。
执行您的选择操作：val df2 = df.select("field1", "field2")。
写回结果：df2.write.csv("path to a new file in HDFS")

最新更新

根据类别级别进行排序
如何在chrome扩展中获得令牌?
在Julia中定义抽象类型的默认方法
无法启动新的Nextjs应用程序
nasm x86-64，超过值时单词比较出现问题
如何使用多处理池与列表?
不能使标签固定在顶部的导航栏部分后，点击
在.net中实现一个API服务，向Apple Wallet发送后台通知
如何在React中创建动态表单
写入使用导入流链接模块或运行子进程或操作系统.系统命令吗?
如何通过http创建远程git存储库
如何在Background-image:url中调用vue.js对象
不能转义带有计时器的for循环
SQL Server 中的术语"列"和"字段"之间有什么区别？
如何在gradle多模块项目中创建可重用的任务?
如何结合RXJS后的结果?
SQL Row Count Over Partition By
Lombok:在构造函数中只生成几个参数的注释
复选框setTextPosition(TOP)不工作
CSRF验证失败.请求中止-即使添加了{% csrf_token %}
使用 psql 的复制语句时如何压缩数据？
如何在Flutter中更改键盘
FXMLLoader无法找到JavaFX类，但手动创建JavaFX创建工作
尝试用Intent解释Android Studio中的Java方法
"无法获取/api/items"
如何使用PowerShell确认系统初始化完成?
将值从文本框传递给actionlink
正确解析jobobject
如何使用Hedera JS SDK生成一组基于BIP-39种子短语和自定义派生路径的ECDSA密钥对?
Java 8流嵌套ForEach与不同的条件

Query hdfs with Spark Sql

相关内容

最新更新

热门标签：