Spark如何处理中文字符串

分类: 文章 • 2022-08-10 20:41:41

最近工作中需要用spark对中文的字符提取，由于环境一直是英文的，发现打印出来是乱码。后经研究，需要做一个UTF-8的转换
大概如下：

val data_file = sc.textFile(“test.txt”)
val item1 = data_file.map(p => new String(p.getBytes, 0, p.getLength, "UTF-8")).map{
    item => XXX
    }

Spark如何处理中文字符串

相关推荐