复判定系数学术资讯 - 科技工作者之家

复判定系数及R2=1-SSE/SST(其中SSE为残差平方和，SST为总平方和)是用来说明因变量的变动中可以用自变量来解释的比例。它可以反映模型的好坏，但由于随着自变量的增加，SSE只会减少，不会变大，而对给定的一组变量观察值来说SST却总是恒定不变，故变量引进模型只会导致R2增大而不会缩小，这极易使人产生错觉，似乎自变量越多越奸。其结果是过多引进一些效率不高的自变量。而统计量1-((n-1)/(n-p-1).(SSE/SST))称为调整的复判定系数，当自变量增加，SSE减小时，其自由度n-p-1就变小，这样调整的复判定系数就不会象R2那样自变量越多越大，从而可能避免引进过多的不必要的自变量，使自变量的选择更合理1。

基本介绍复判定系数是指在多元线性回归分析中，回归离差平方和占总离差平方和的比重，一般也称为多重判定系数(multiple coefficient of determination)，或简称为判定系数。

与一元线性回归的情形一样，多元线性回归的复判定系数的计算公式是：

R2表示因变量Y的全部变差中可由的差异解释的部分所占的比例。

回归方程的精度与简洁性的标准往往不可能同时得到最大化的满足。在回归方程精度的测量指标中，最常用的指标是复判定系数。复判定系数的一个重要性质是，它是出现在模型中的自变量个数的非减函数，即随着自变量个数的增大，R2几乎必然增大，至少是不减小。为了看清楚这一点，我们先看R2的计算公式：

公式中与模型中X变量的个数没有关系，但与自变量的个数有关，直观上，随着X变量个数的增加，其很可能减小(至少不会增大)，随之R2会相应增大。这一变化也可通过图1所示的图形表现出来2。

调整后的判定系数建立回归模型时，不能一味地通过增多自变量的个数来实现回归精度的提高。因为判定系数逐步提高的过程，回归方程也就逐渐背离了其简洁的原则。因而在对回归方程进行评价时需要进行综合的考虑和评价。即在考虑模型精度的同时也要考虑模型的简洁性。进行模型的评价或模型的比较时，必须要考虑到模型中出现的自变量的个数，计算调整后的判定系数。