机器学习-无监督学习1

无监督学习简介

  • 无监督学习的概述
  • k-means算法的介绍
  • 主成分分析(PCA)介绍
  • 流形学习介绍之LLE

无监督学习的概述

无监督学习的概念与意义

概念:在没有标签即Y的数据下的学习方法,叫做无监督学习。例如,将用户根据历史的操作行为进行聚类分析。

意义

  • 根据事物的本身属性去分辨事物,训练样本标记信息未知,可以通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步数据分析提供基础。
  • 与监督学习相结合,产生半监督学习等。
  • 用于神经网络隐藏层的感知函数定义等。
    无监督学习与人类的学习过程相类似。

无监督学习的主要方法

  • 聚类:k-means、层次聚类、密度聚类
  • 神经网络中的稀疏化编码
  • 降维:PCA

无监督学习的主要应用

  • 群体分类、挖掘分割
  • 挖掘数据内部特征

k-means算法的介绍

聚类算法的主要思想
物以类聚,人以群分
定义距离的度量:
机器学习-无监督学习1
机器学习-无监督学习1
常见的相似性和距离度量方式

  • 明可夫斯基距离
    机器学习-无监督学习1
  • 杰卡德相似系数(数据维度不同可化为同维)
    机器学习-无监督学习1
  • 余弦相似度
    机器学习-无监督学习1

k-means的主要算法
k-means算法是很典型的基于距离的聚类算法,将距离作为相似性的评价指标。它可以将具有相似性的样本聚成一类。
算法具体流程
机器学习-无监督学习1
目标函数及求解
机器学习-无监督学习1
k-means的分析和扩展

怎样选择聚类数目

  • Canopy算法
  • 实际的先验知识(或业务数据逻辑)
    机器学习-无监督学习1
    Canopy算法流程机器学习-无监督学习1
    聚类衡量指标
  • 均一性
  • 完整性
  • V-measure ARI
  • AMI
  • 轮廓系数
    机器学习-无监督学习1