机器学习-无监督学习1
无监督学习简介
- 无监督学习的概述
- k-means算法的介绍
- 主成分分析(PCA)介绍
- 流形学习介绍之LLE
无监督学习的概述
无监督学习的概念与意义
概念:在没有标签即Y的数据下的学习方法,叫做无监督学习。例如,将用户根据历史的操作行为进行聚类分析。
意义:
- 根据事物的本身属性去分辨事物,训练样本标记信息未知,可以通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步数据分析提供基础。
- 与监督学习相结合,产生半监督学习等。
- 用于神经网络隐藏层的感知函数定义等。
无监督学习与人类的学习过程相类似。
无监督学习的主要方法
- 聚类:k-means、层次聚类、密度聚类
- 神经网络中的稀疏化编码
- 降维:PCA
无监督学习的主要应用
- 群体分类、挖掘分割
- 挖掘数据内部特征
k-means算法的介绍
聚类算法的主要思想
物以类聚,人以群分
定义距离的度量:
常见的相似性和距离度量方式
- 明可夫斯基距离
- 杰卡德相似系数(数据维度不同可化为同维)
- 余弦相似度
k-means的主要算法
k-means算法是很典型的基于距离的聚类算法,将距离作为相似性的评价指标。它可以将具有相似性的样本聚成一类。
算法具体流程
目标函数及求解
k-means的分析和扩展
怎样选择聚类数目
- Canopy算法
- 实际的先验知识(或业务数据逻辑)
Canopy算法流程:
聚类衡量指标 - 均一性
- 完整性
- V-measure ARI
- AMI
- 轮廓系数