Home | 简体中文 | 繁体中文 | 杂文 | Github | 知乎专栏 | Facebook | Linkedin | Youtube | 打赏(Donations) | About
知乎专栏

9.2. 什么是残差

在数学和统计学领域,残差(Residual)是指观测值与预测值(或拟合值)之间的差异。设观测值为,预测值为,那么残差。例如,我们通过一个线性回归模型来预测房屋价格。对于某一套房子,实际价格(观测值)是 200 万元,而模型预测出来的价格(预测值)是 180 万元,那么残差就是万元。

	
残差在回归分析中的应用
评估模型拟合优度:残差可以帮助我们了解模型对数据的拟合程度。如果残差较小,说明模型能够较好地拟合数据。例如,在简单线性回归中,我们可以绘制残差图(以预测值为横坐标,残差为纵坐标)。如果残差在零点附近随机分布,没有明显的规律(如系统性的上升或下降趋势、聚集在某个区域等),这表明模型拟合得比较好。相反,如果残差呈现出某种规律性,比如残差随着预测值的增加而增大,那就意味着模型可能存在问题,比如遗漏了重要的变量或者模型的形式不适合数据。
检测异常值:残差较大的观测点可能是异常值。继续以房屋价格预测为例,如果大部分房子的残差都在 - 10 万元到 10 万元之间,但是有一套房子的残差达到了 100 万元,这就需要我们进一步检查这个观测点。它可能是因为数据录入错误,或者这套房子有一些特殊的属性(如独特的地理位置、豪华的装修等)没有被模型考虑到。

残差在时间序列分析中的应用
在时间序列分析中,残差用于衡量模型对时间序列数据的预测准确性。例如,我们用一个 ARIMA 模型(自回归移动平均模型)来预测某产品的销售量。残差可以帮助我们判断模型是否能够很好地捕捉时间序列的波动特征。如果残差序列中存在明显的自相关性(即残差的当前值与过去值之间存在关联),这可能意味着模型没有充分利用数据中的信息,需要进一步调整模型的参数或者结构。

残差在机器学习中的应用
在机器学习模型评估中,残差也是一个重要的概念。以神经网络模型为例,训练集和测试集上的残差大小可以反映模型的泛化能力。如果模型在训练集上残差很小,但在测试集上残差很大,这可能是出现了过拟合现象。也就是说,模型过度学习了训练集中的细节,而不能很好地推广到新的数据上。我们可以通过一些技术,如正则化等,来减少过拟合,使得模型在测试集上的残差也能保持在一个合理的范围内。