简单回归模型(二)
拟合优度
已知:yi=y^i+u^iy_i=\hat y_i+\hat u_iyi=y^i+u^i,可以把OLS分成拟合值和残差两个部分,在样本中,拟合值和残差是不相关的。定义总平方和(SST)、解释平方和(SSE),和**残差平方和(SSR)**如下:
SST=∑i=1n(yi−yˉ)2SST=\sum_{i=1}^{n}(y_i-\bar y)^2SST=i=1∑n(yi−yˉ)2
SSR=∑i=1n(y^i−yˉ)2SSR=\sum_{i=1}^{n}(\hat y_i-\bar y)^2SSR=i=1∑n(y^i−yˉ)2
SSR=∑i=1nui2=∑i−1n(yi−yˉ)2SSR=\sum_{i=1}^{n}u_i^2=\sum_{i-1}^{n}(y_i-\bar y)^2SSR=i=1∑nui2=i−1∑n(yi−yˉ)2
容易证得:SST=SSE+SSRSST=SSE+SSRSST=SSE+SSR
假定总平方和SST不为零,我们可以通过将方程两边同时除以SST得到1=SSE/SST+SSR/SST1=SSE/SST+SSR/SST1=SSE/SST+SSR/SST。回归的R2R^2R2有时又被称为判定系数,是被解释波动与总波动之比,被定义为:
R2=SSE/SST=1−SSR/SSTR^2=SSE/SST=1-SSR/SSTR2=SSE/SST=1−SSR/SST
根据该方程,R2R^2R2的值总是介于0和1之间。若所有数据点都落在同一条直线上,此时R2=1R^2=1R2=1;同理,一个接近于零的R2R^2R2给出了一个糟糕的拟合,因为yiy_iyi的波动极少能被yˉ\bar yyˉ所解释(后者全部落在OLS回归线上)。另外,可以证明R2R^2R2等于yiy_iyi和xix_ixi样本相关系数的平方:
R2=∑i=1ny^i2∑i=1nyi2=β^12∑i=1nxi2∑i=1nyi2=⋯=r2R^2=\frac{\sum_{i=1}^n\hat y_i^2}{\sum_{i=1}^ny_i^2}=\frac{\hat \beta_1^2\sum_{i=1}^n x_i^2}{\sum_{i=1}^ny_i^2}=\cdots=r^2R2=∑i=1nyi2∑i=1ny^i2=∑i=1nyi2β^12∑i=1nxi2=⋯=r2
(太麻烦了不写了)
注意:R2R^2R2不能作为评价计量分析成功与否的主要准则!
度量单位与函数形式
当自变量和因变量的单位发生变化时,OLS的估计值也会发生变化。一般的自变量被除以或乘以一个非零的常数c时,OLS的斜率和截距也会分别被乘以或除以c,但判定系数R2R^2R2不会因y或x的单位变化而变化。
我们也可以把许多非线性因素引入到简单回归分析之中,例如:对于一个变量为非线性形式的模型:Y=β0X1βY=\beta_0X^\beta_1Y=β0X1β,我们可以通过一定的函数变换得到一个新的模型,如lnY=lnβ0+β1lnXlnY=ln\beta_0+\beta_1lnXlnY=lnβ0+β1lnX,令W=lnYW=lnY