Spark处理数据文件转LIBSVM格式解决方法
SparkMlLib中处理的文件是LIBSVM格式,因此在处理前需要先转换数据文件的格式
1. 首先获得FormatDataLibsvm.xls文件, 文件链接地址为:
链接:https://pan.baidu.com/s/1Ctc52R447Kfisf6JaJ013w
提取码:auwe
2.取出数据文件,这里以wine.data为例
- 将wine.data转为.txt格式(我这里直接重命名文件的属性,不建议这样做,我是图省事)
- 打开FormatDataLibsvm.xls,将wine.txt拖进去,然后关闭wine.txt打开的excel文件。(这一步是为了将wine.txt转换格式,如果直接从FormatDataLibsvm.xls中打开是无法打开。之所以关闭是因为第三步要直接从FormatDataLibsvm.xls中历史记录中打开我们曾经打开过的wine.txt,用来进行格式的调换)
- 在FormatDataLibsvm.xls中右上角 文件->打开找到我们上一步打开的wine.txt,会出现下图
按照文本分隔符进行分割,数据文件就会在相对应的cell里出现,便于我们编辑 - 在上一步打开的文件中,点击视图->宏->查看宏->
点击之后自动转换成为如下格式:
保存一下即可。