Flatmap阶[字符串,字符串列表[字符串]
问题描述:
我有这个prbolem,我有一个RDD[(String,String, List[String])
,我想 “flatmap” 它获得RDD[(String,String, String)]
:Flatmap阶[字符串,字符串列表[字符串]
如:
val x :RDD[(String,String, List[String]) =
RDD[(a,b, list[ "ra", "re", "ri"])]
我希望得到:
val result: RDD[(String,String,String)] =
RDD[(a, b, ra),(a, b, re),(a, b, ri)])]
答
使用flatMap
:
val rdd = sc.parallelize(Seq(("a", "b", List("ra", "re", "ri"))))
// rdd: org.apache.spark.rdd.RDD[(String, String, List[String])] = ParallelCollectionRDD[7] at parallelize at <console>:28
rdd.flatMap{ case (x, y, z) => z.map((x, y, _)) }.collect
// res23: Array[(String, String, String)] = Array((a,b,ra), (a,b,re), (a,b,ri))
答
这是再次使用flatMap
val rdd = sparkContext.parallelize(Seq(("a", "b", List("ra", "re", "ri"))))
rdd.flatMap(array => array._3.map(list => (array._1, array._2, list))).foreach(println)
我不同意,结果的类型这里将是'RDD [列表[(字符串,字符串,字符串)]]'而OP做的另一种方式请求'RDD [(String,String,String)]' – GPI
是的你是对的@GPI让我更新我的答案:)谢谢你让我知道 –