我使用Spark 2.1.1。
我从以下内容开始:
import org.apache.spark.sql.types._
val mySchema = StructType(
StructField("id", IntegerType, true),
StructField("code", StringType, false),
StructField("value", DecimalType, false))
val myDS = Seq((1,"000010", 1.0), (2, "000020", 2.0)).as[mySchema]
在这里,我看到mySchema不是一种类型,在查看Encoders.scala
后,我可以看到我需要通过以下方式传递产品的子类型
def product[T <: Product : TypeTag]: Encoder[T] = ExpressionEncoder()
因此,在看到冒号运算符只是什么是 Scala 上下文和视图边界?中隐式参数的语法糖之后,我可以看到应该有一个隐式的 TypeTag[T] 可用,但我不明白 TypeTag[T] 是如何隐式的从查看SQLImplicits.scala
。
/**
* @since 1.6.1
* @deprecated use [[newSequenceEncoder]]
*/
def newProductSeqEncoder[A <: Product : TypeTag]: Encoder[Seq[A]] = ExpressionEncoder()
即使它已被弃用,当我看到
/** @since 2.2.0 */
implicit def newSequenceEncoder[T <: Seq[_] : TypeTag]: Encoder[T] = ExpressionEncoder()
我仍然想知道哪里隐式声明了 TypeTag[T]?
TypeTag
是一个类型类,它将为您尝试召唤的任何类型隐式加载实例。这与 Spark 或 SQLImplicits
无关,例如您可以尝试这样做
def getMyTypeTag[T : TypeTag]: TypeTag[T] = implicitly[TypeTag[T]]
另一方面,一旦您导入了 SqlImplicits
中定义的隐式,spark 就可以通过 Spark 构建 spark sql Encoder
,如果您查看LowPrioritySQLImplicits
,您会发现您需要TypeTag
来创建Product
(案例类)的Encoder
,这就是为什么您需要在隐式上下文中加载TypeTag
的原因
trait LowPrioritySQLImplicits {
/** @since 1.6.0 */
implicit def newProductEncoder[T <: Product : TypeTag]: Encoder[T] = Encoders.product[T]
}
仅当您尝试从中召唤编码器的代码不是通用代码或类型标记已在上下文中时,才能调用 TypeTag。例如
def loadEncoder(): Encoder[MyType] ={
import spark.implicits._
Encoder[MyType] // The type is here so it will work
}
另一方面
loadEncoder[MyType]
def loadEncoder[T](): Encoder[T] ={
import spark.implicits._
Encoder[T] // The type info is not here so it wont work
}
和
loadEncoder[MyType]
def loadEncoder[T: TypeTag](): Encoder[T] ={
import spark.implicits._
Encoder[T] // The type info is not here but the TypeTag is so it will work
}
好吧,我以为这是 Spark 的事情,但页面顶部有一个导入语句
import scala.reflect.runtime.universe.TypeTag
当我查看 API 页面时 http://www.scala-lang.org/api/2.11.6/scala-reflect/index.html#scala.reflect.api.TypeTags 我可以看到它正在这里处理。