区分回归问题和分类问题

回归问题和分类问题的区别

  • 回归问题
    用一个经典的问题来解释:假设你想买房子,手头上仅有的是之前出售的房子的占地面积大小和房子的价格,你想凭借手头上的这些数据来买一套不错的房子,那么你仅有的关于房子的信息是房子的占地大小,也就是就一个特征,那么这样的问题被称为单一特征回归问题。
    再假设一下,还是买房子,如果此时你手头上除了房子的占地大小这一个信息之外,还有房子邻街的距离、房子的高度、房子的周围的环境等等信息,你想凭借这些信息来选一套房子,那么此时你所拥有的是关于房子的多个特征,这样的问题是多特征回归问题。
    总结一下,除了特征的数量不同,这两种描述都是回归问题,回归问题的特点是你所预测的量是一个连续的值,比如这里是预测房屋价格,价格是一个连续的值。
  • 分类问题
    用一个简单的例子:西瓜的好坏。给定西瓜的若干特征,需要你根据这些特征来判断这个西瓜是好是坏。所给的特征可以是一个也可以是多个。
    分类问题的最大的特点是所预测的值是离散的,比如这里的西瓜的好坏,两种情况,不是好就是坏。再比如是否生病,不是生病就是不生病。当然这两个例子都是两种情况的分类问题即二分类,如果多分类问题呢?比如手写数字识别,就是多分类问题,对于一张照片传进来,只能判断是0~9之间的一个数字,其他的就不会预测。

说完两者的简单介绍以及区别之后,思考为什么多数线性回归不适合用在分类问题上(为了好理解我们拿线性假设函数来说明)?
比如下面的这个图:
区分回归问题和分类问题

是一个回归问题,因为因变量是一个连续的值,我们可以使用一条一线来拟合它。看看下面这张图:
区分回归问题和分类问题

假设它的横坐标的含义是肿瘤的大小,纵坐标代表是否有癌症,那么这样的问题是一个二分类问题,如果数据量不多,如这个图一样,用一条直线来拟合还说的过去,如果在x=30的地方有一个值,毫无疑问,很遗憾这位病人患了癌症,这个值能去掉吗?不能,它仍然有意义,这样的情况下如果还是用线性回归来拟合会很不适合。其实其他的例子也可以说明线性回归不适合用来预测分类问题。