回归问题和分类问题的区别

回归问题
用一个经典的问题来解释：假设你想买房子，手头上仅有的是之前出售的房子的占地面积大小和房子的价格，你想凭借手头上的这些数据来买一套不错的房子，那么你仅有的关于房子的信息是房子的占地大小，也就是就一个特征，那么这样的问题被称为单一特征回归问题。
再假设一下，还是买房子，如果此时你手头上除了房子的占地大小这一个信息之外，还有房子邻街的距离、房子的高度、房子的周围的环境等等信息，你想凭借这些信息来选一套房子，那么此时你所拥有的是关于房子的多个特征，这样的问题是多特征回归问题。
总结一下，除了特征的数量不同，这两种描述都是回归问题，回归问题的特点是你所预测的量是一个连续的值，比如这里是预测房屋价格，价格是一个连续的值。
分类问题
用一个简单的例子：西瓜的好坏。给定西瓜的若干特征，需要你根据这些特征来判断这个西瓜是好是坏。所给的特征可以是一个也可以是多个。
分类问题的最大的特点是所预测的值是离散的，比如这里的西瓜的好坏，两种情况，不是好就是坏。再比如是否生病，不是生病就是不生病。当然这两个例子都是两种情况的分类问题即二分类，如果多分类问题呢？比如手写数字识别，就是多分类问题，对于一张照片传进来，只能判断是0~9之间的一个数字，其他的就不会预测。

说完两者的简单介绍以及区别之后，思考为什么多数线性回归不适合用在分类问题上（为了好理解我们拿线性假设函数来说明）？
比如下面的这个图：
区分回归问题和分类问题

是一个回归问题，因为因变量是一个连续的值，我们可以使用一条一线来拟合它。看看下面这张图：
区分回归问题和分类问题

假设它的横坐标的含义是肿瘤的大小，纵坐标代表是否有癌症，那么这样的问题是一个二分类问题，如果数据量不多，如这个图一样，用一条直线来拟合还说的过去，如果在x=30的地方有一个值，毫无疑问，很遗憾这位病人患了癌症，这个值能去掉吗？不能，它仍然有意义，这样的情况下如果还是用线性回归来拟合会很不适合。其实其他的例子也可以说明线性回归不适合用来预测分类问题。

区分回归问题和分类问题

回归问题和分类问题的区别

相关推荐