机器学习从入门到创业手记-处理数据的乐趣在于挖掘

在月度Team Building[1]上,我问刘思聪:爱视达智能是怎么发展起来的?David王看着也很年轻,怎么又那么多钱投入公司啊?

      

       刘思聪:哪是他的钱啊,都是他融资来的。

 

       安逸:如何才能融到资呢?

 

       刘思聪:你有背景么?你有资源么?你有什么特别的本事么?

 

安逸惭愧的笑了笑。

 

       刘思聪:什么都没有的话,可以考虑去向3F融资。

 

       安逸:什么是3F啊?

 

       刘思聪:Family,Friend和Fool,就是家庭,朋友和傻瓜。

 

       安逸:我家没钱,认识的朋友也没钱,将来我要是创业就找你融资了。

 

       大家一阵哄堂大笑。

 

       刘思聪:拿出你的运营数据,我分析要是觉得靠谱,我就当那个傻瓜。

      

4.1大数据分析入门

       我,高维和路思被分配到基础开发部参与实践, 积累一些实际项目经验,重要的是明白机器学习模型必须和领域数据相结合才能有价值。

4.1.1 Weka软件简介

       在基础软件部必须要掌握的软件就是weka了,WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),其汇集了几乎目前所有机器学习算法与数据预处理的功能,能实现数据挖掘的整个过程。

      

       Weka平台能处理数据挖掘中的诸如回归,分类,聚类,关联分析以及属性选择等功能,并提供了数据可视化工具,其处理数据的格式需是ARFF或CSV格式,并且是以单一表的形式进行输入。Weka使用方式是将数据集导入,并用Weka自带的学习算法进行运算并分析其输出。

 

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.1.1 Weka主界面

      

       Weka主界面中日常用到的主要有下面三个用户界面。

      

1.Explorer:浏览器界面通过该界面可以读取数据集,并建立算法模型。

 

2.Experimenter:实验者界面用来帮助用户对于已知数据集进行分析得到最佳算法与参数。

 

3.Knowledge Flow:知识流界面是使用户能够自主处理流动中的数据,与Explorer区别在于,其不会将数据一次性全读入,知识流界面允许用户在界面上任意拖动算法与数据源组件,并可以整合到一起,按照顺序执行。

 

4.Workbench:一体化应用,结合了所有其它界面的功能。

 

5.SimpleCLI:提供Weka的命令行界面。

 

4.1.2 Explorer界面操作

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.1 Preprocessing界面

      

       使用Open File按钮,可以直接读取Weka的ARFF格式,CSV格式的数据,这里导入示例文件weather.numeric.arff如图4.1.2.2,导入后又五个属性分别是outlook,temperature,humidity,windy和play,可以点击每个属性获得该属性数据的统计,如图4.1.2.3。

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.2 导入数据

 

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.3 outlook属性的数据统计

 

       选择Explorer界面中的classify标签,选择图4.1.2.4中的Choose按钮,弹出算法模型界面,在算法模型界面J48,点击start开始训练10折交叉验证学习,结果会在Classifier output界面输出。

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.4 classify界面

 

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.5 算法模型界面

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.6 使用J48算法对数据进行分析

 

       图4.1.2.7描述了该算法对数据集进行的操作,括号中的数字如2.0,3.0表示有多少个实例到达了该分支。

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.7 裁剪树

 

根据模型正确和错误预测的检测记录计数机进行评估,将这些计数存放在称作混淆矩阵的表格中,图4.1.2.8的混淆矩阵按行来查看,该数据集一定有a,b两类,分在a类的有7+2个数据,其中正确判定是a的有7个,错误分类的是2个,同理b类中,正确分类的是2个,错误分类时3个。

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.8 混淆矩阵

 

图4.1.2.9和图4.1.2.10描述的是如何对学习模型进行可视化操作。

 

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.9 对模型进行可视化

机器学习从入门到创业手记-处理数据的乐趣在于挖掘

图4.1.2.10可视化树

 


[1] 团队建设活动