无法使 Spark 在 Intellij Idea 中的 scala 工作表中运行

如果我将以下代码放在扩展 App 特征的对象中并使用 Idea 的run命令运行它，则以下代码运行没有问题。

但是，当我尝试从工作表运行它时，我遇到以下情况之一：

1-如果第一行存在，我得到：

任务不可序列化：java.io.NotSerializableException：A$A34$A$A34

2-如果第一行被注释掉，我得到：

无法为内部类 A$A35$A$A35$A12 生成编码器，否则访问在其中定义此类的范围。

//First line!
org.apache.spark.sql.catalyst.encoders.OuterScopes.addOuterScope(this)
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.{IntegerType, StructField, StructType}
case class AClass(id: Int, f1: Int, f2: Int)
val spark = SparkSession.builder()
.master("local[*]")
.appName("Test App")
.getOrCreate()
import spark.implicits._
val schema = StructType(Array(
StructField("id", IntegerType),
StructField("f1", IntegerType),
StructField("f2", IntegerType)))
val df = spark.read.schema(schema)
.option("header", "true")
.csv("dataset.csv")
// Displays the content of the DataFrame to stdout
df.show()
val ads = df.as[AClass]
//This is the line that causes serialization error
ads.foreach(x => println(x))

该项目是使用 Idea 的 Scala 插件创建的，这是我的 build.sbt：

...
scalaVersion := "2.10.6"
scalacOptions += "-unchecked"
libraryDependencies ++= Seq(
"org.apache.spark" % "spark-core_2.10" % "2.1.0",
"org.apache.spark" % "spark-sql_2.10" % "2.1.0",
"org.apache.spark" % "spark-mllib_2.10" % "2.1.0"
)

我尝试了这个答案中的解决方案。但它不适用于我正在使用的 Idea Ultimate 2017.1，而且，当我使用工作表时，如果可能的话，我宁愿不向工作表添加额外的对象。

如果我在数据集对象上使用collect()方法并获取"Aclass"实例数组，也不会再有错误。它正在尝试直接使用导致错误的 DS。

使用 eclipse 兼容模式(打开首选项->键入 scala -> 在语言和框架中，选择 Scala -> 选择工作表 ->仅选择 eclipse 兼容模式) 请参阅 https://gist.github.com/RAbraham/585939e5390d46a7d6f8

相关内容

最新更新

热门标签：