星火DataSet和java.sql.Date

问题描述：

比方说，我有一个星火Dataset这样的：星火DataSet和java.sql.Date

scala> import java.sql.Date 
scala> case class Event(id: Int, date: Date, name: String) 
scala> val ds = Seq(Event(1, Date.valueOf("2016-08-01"), "ev1"), Event(2, Date.valueOf("2018-08-02"), "ev2")).toDS

我想创建一个新的Dataset，只有名字和日期字段。据我所见，我可以使用ds.select()与TypedColumn或我可以使用ds.select()与Column，然后将DataFrame转换为Dataset。

但是，我无法使用Date类型的前一个选项。例如：

scala> ds.select($"name".as[String], $"date".as[Date]) 
<console>:31: error: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases. 
       ds.select($"name".as[String], $"date".as[Date]) 
                ^

后来的选项适用：

scala> ds.select($"name", $"date").as[(String, Date)] 
res2: org.apache.spark.sql.Dataset[(String, java.sql.Date)] = [name: string, date: date]

有没有办法选择从DatasetDate领域而不去DataFrame和回？

答

一整天都在抨击我这样的问题。我认为你可以用一条线解决你的问题：

implicit val e: Encoder[(String, Date)] = org.apache.spark.sql.Encoders.kryo[(String,Date)]

至少这一直在为我工作。

EDIT

在这些情况下，问题是，对于大多数Dataset操作，火花2需要一个Encoder存储模式信息（推测为优化）。模式信息采取隐式参数的形式（并且一堆Dataset操作具有这种隐式参数）。

在这种情况下，OP找到了正确的架构java.sql.Date所以以下工作：

implicit val e = org.apache.spark.sql.Encoders.DATE

这并没有直接解决问题，但它让我在正确的轨道上。使用'implicit val encodeDate = org.apache.spark.sql.Encoders.DATE'解决了这个问题。我不确定为什么这不是由默认暗示处理的。 –

星火DataSet和java.sql.Date

相关推荐