【机器学习数学基础之概率论与统计04】非参数估计

    非参数估计指不知道分布类型,对样本进行模型估计。一般只用在一维和二维。

直方图估计

    具体概念详见课件:                                                                                                                  【机器学习数学基础之概率论与统计04】非参数估计

    直方图与初高中所理解的直方图没什么不同,直方图估计就是采用直方图的方式来对数据进行拟合。显然地,"箱子"的宽度1/M能够更准确更细致地展示数据的分布;但如果1/M过小,导致有些箱子里没有数据,这个时候p(x)将会出现较大波动。所以,如何选择M十分关键,通常采用交叉验证的方法确定M。

核密度估计

    核密度估计针对直方图的缺点进行了改动。在直方图中,由于在同一个箱子里出现的样本点,它们都是对于以中心点B(xi)形成的宽度为h的区域有相同的贡献。核密度估计是希望对这些点做距离的权重,从而使得分布更加平滑。【机器学习数学基础之概率论与统计04】非参数估计

    其中核函数的参数(x-xi)/h即是距离的权重。

    常见的核函数

【机器学习数学基础之概率论与统计04】非参数估计

    在核密度估计中,带宽h比较重要,核函数影响较小。