有关overfitting和underfitting的具体解释

有关overfitting和underfitting的具体解释
如果给出上图的6个点, 该如何选择上图曲线才能更好的反映实际的数据情况?
红色: 直线, 可以表示一定的数据, 但会造成大量数据丢失, 产生数据无法代表实际情况, 叫做underfitting。
蓝色:一元四次方程, 可以表达数据中所有的点, 但过于复杂,并且无法达到真实的数据预测, 最下面一个点可能是较大的人为误差,或则记录数据错误, 并不能反映真实的数据模型, 叫做overfitting。
绿色:虽然无法代表模型数据中的所有点, 但介于红色和蓝色之间, 可以更好的表达模型。实际中数据的获取可能有noise, 这样可以消除noise, 并能够避免模型太过复杂。noise是指在测量数据时, 比如读取温度计的温度, 测量的距离, 秒表测量时间都无法避免的误差。