在一元线性回归分析模型 ( y = a + bx + e ) 中,其中 ( e )(误差项)的确需要满足一定的分布假设。虽然并不一定必须要假设 ( e ) 服从正态分布,但实践中经常假设其服从正态分布,这里有几点原因:
-
线性回归理论基础:
- 许多传统的统计推断基于正态分布假设,包括最小二乘估计(OLS)的性质推导。
- 经典的线性回归理论依赖正态分布来推导出估计量的概率性质,例如期望值、方差和置信区间等。
-
中心极限定理的支持:
- 根据中心极限定理,即使误差本身不是正态分布的,只要误差项的数量足够多且相互独立,则它们的和近似服从正态分布。在实际应用中,许多误差通常符合这一情况,因此,这个假设即便不完全严格,也相对合理。
-
稳健性考虑:
- 当数据量较大时,由于样本的平均数会使误差项条件接近正态分布,即大数定律起作用。此外,正态分布的假设能使估计结果更加稳健。
-
方便统计测试:
- 在正态分布的假设下,进行t检验和F检验非常方便,可以直接使用分布表或统计软件获得统计显著性的数值。
-
实证分析表明: