如何从 Spark 中的文本文件创建数据帧

我在HDFS上有一个文本文件，我想在Spark中将其转换为数据帧。

我正在使用 Spark 上下文加载文件，然后尝试从该文件生成单个列。

val myFile = sc.textFile("file.txt")
val myFile1 = myFile.map(x=>x.split(";"))

完成此操作后，我正在尝试以下操作。

myFile1.toDF()

我遇到了一个问题，因为 myFile1 RDD 中的元素现在是数组类型。

如何解决此问题？

更新 - 从 Spark 1.6 开始，您只需使用内置的 CSV 数据源：

spark: SparkSession = // create the Spark Session
val df = spark.read.csv("file.txt")

您还可以使用各种选项来控制 CSV 解析，例如：

val df = spark.read.option("header", "false").csv("file.txt")

对于 Spark 版本 <1.6：最简单的方法是使用 spark-csv - 将其包含在依赖项中并遵循自述文件，它允许设置自定义分隔符（; ），可以读取 CSV 标头（如果有的话），并且可以推断架构类型（需要额外扫描数据）。

或者，如果您知道模式，则可以创建一个表示它的案例类，并在转换为数据帧之前将RDD元素映射到此类的实例中，例如：

case class Record(id: Int, name: String)
val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 
myFile1.toDF() // DataFrame will have columns "id" and "name"

我给出了从文本文件创建数据帧的不同方法

val conf = new SparkConf().setAppName(appName).setMaster("local")
val sc = SparkContext(conf)

原始文本文件

val file = sc.textFile("C:\vikas\spark\Interview\text.txt")
val fileToDf = file.map(_.split(",")).map{case Array(a,b,c) => 
(a,b.toInt,c)}.toDF("name","age","city")
fileToDf.foreach(println(_))

没有架构的 Spark 会话

import org.apache.spark.sql.SparkSession
val sparkSess = 
SparkSession.builder().appName("SparkSessionZipsExample")
.config(conf).getOrCreate()
val df = sparkSess.read.option("header", 
"false").csv("C:\vikas\spark\Interview\text.txt")
df.show()

具有架构的 Spark 会话

import org.apache.spark.sql.types._
val schemaString = "name age city"
val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, 
StringType, nullable=true))
val schema = StructType(fields)
val dfWithSchema = sparkSess.read.option("header", 
"false").schema(schema).csv("C:\vikas\spark\Interview\text.txt")
dfWithSchema.show()

使用 SQL 上下文

import org.apache.spark.sql.SQLContext
val fileRdd = 
sc.textFile("C:\vikas\spark\Interview\text.txt").map(_.split(",")).map{x 
=> org.apache.spark.sql.Row(x:_*)}
val sqlDf = sqlCtx.createDataFrame(fileRdd,schema)
sqlDf.show()

如果要使用 toDF 方法，则必须将Array[String] RDD转换为案例类的RDD。例如，您必须执行以下操作：

case class Test(id:String,filed2:String)
val myFile = sc.textFile("file.txt")
val df= myFile.map( x => x.split(";") ).map( x=> Test(x(0),x(1)) ).toDF()

在使用隐式转换之前，您将无法将其转换为数据框。

val sqlContext = new SqlContext(new SparkContext())
import sqlContext.implicits._

在此之后，您只能将其转换为数据框

case class Test(id:String,filed2:String)
val myFile = sc.textFile("file.txt")
val df= myFile.map( x => x.split(";") ).map( x=> Test(x(0),x(1)) ).toDF()

val df = spark.read.textFile("abc.txt")
case class Abc (amount:Int, types: String, id:Int)  //columns and data types
val df2 = df.map(rec=>Amount(rec(0).toInt, rec(1), rec(2).toInt))
rdd2.printSchema

root
 |-- amount: integer (nullable = true)
 |-- types: string (nullable = true)
 |-- id: integer (nullable = true)

带有 PIPE （|）分隔文件的 txt 文件可以读取为：

<小时 />

df = spark.read.option("sep", "|").option("header", "true").csv("s3://bucket_name/folder_path/file_name.txt")

我知道

我回答这个问题已经很晚了，但我想出了一个不同的答案：

val rdd = sc.textFile("/home/training/mydata/file.txt")
val text = rdd.map(lines=lines.split(",")).map(arrays=>(ararys(0),arrays(1))).toDF("id","name").show

您可以读取文件以获得RDD，然后为其分配模式。创建模式的两种常见方法是使用 case 类或 Schema 对象 [我的首选对象]。遵循您可能使用的代码的快速片段。

案例类方法

case class Test(id:String,name:String)
val myFile = sc.textFile("file.txt")
val df= myFile.map( x => x.split(";") ).map( x=> Test(x(0),x(1)) ).toDF()

架构方法

import org.apache.spark.sql.types._
val schemaString = "id name"
val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, nullable=true))
val schema = StructType(fields)
val dfWithSchema = sparkSess.read.option("header","false").schema(schema).csv("file.txt")
dfWithSchema.show()

第二种是我的首选方法，因为案例类最多有 22 个字段的限制，如果您的文件超过 22 个字段，这将是一个问题！

原始文本文件

没有架构的 Spark 会话

具有架构的 Spark 会话

使用 SQL 上下文

相关内容

最新更新

热门标签：