多元线性回归是一种统计学习方法,用于建立多个自变量和一个因变量之间的关系。多元回归方程可以表示为以下形式:
y = β0 + β1*x1 + β2*x2 + ... + βp*xp + ε
其中,y是因变量,x1, x2, ..., xp是自变量,β0, β1, β2, ..., βp是未知的回归系数,ε是误差项。
以下是如何建立一个多元回归模型的详细步骤:
1. 收集数据:收集包括自变量和因变量的样本数据,数据应该充分、可靠,并且来自于同一个总体。
2. 确定模型:根据问题的相关背景和经验,确定自变量和因变量之间的函数形式。
3. 进行模型拟合:根据收集到的样本数据,使用最小二乘法估计回归系数。
4. 进行模型诊断:检查拟合的模型是否符合多元线性回归模型的基本假设,如模型的线性性、正态性、同方差性和无自相关性等。具体方法包括绘制残差图、QQ图、方差膨胀因子(VIF)等。
5. 利用模型进行预测:根据所获得的多元回归模型,对未知的自变量或因变量进行预测。
需要注意的是,多元线性回归需要满足一些基本的假设条件,如线性性、正态性、同方差性和无自相关性等。在进行建模和预测中,必须正确地诊断模型的假设,并进行必要的调整和改进,以提高预测精度和可靠性。
方法/步骤
1/4分步阅读
首先我们先了解一下回归直线的原理。如果散点图中点的分布从整体看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系。
2/4
下一步我们就开始求解了。先求 x、y 的平均数 x_=(3+4+5+6)/4=9/2,y_=(2.5+3+4+4.5)/4=7/2,然后求对应的 x、y 的乘积之和 :3*2.5+4*3+5*4+6*4.5=66.5 ,x_*y_=63/4 ,接着计算 x 的平方之和:9+16+25+36=86,x_^2=81/4 ,现在可以计算 b 了:b=(66.5-4*63/4) / (86-4*81/4)=0.7 ,而 a=y_-bx_=7/2-0.7*9/2=0.35 ,所以回归直线方程为 y=bx+a=0.7x+0.35 。
3/4
下一步我们还可用最小二乘法:总离差不能用n个离差之和来表示,通常是用离差的平方和,即7a6431333366303162作为总离差,并使之达到最小,这样回归直线就是所有直线中Q取最小值的那一条,这种使“离差平方和最小”的方法,叫做最小二乘法。
4/4
下一步这步用最小二乘法求:由于绝对值使得计算不变,在实际应用中人们更喜欢用:Q=(y1-bx1-a)²+(y2-bx2-a)²+······+(yn-bxn-a)²,这样,问题就归结于:当a,b取什么值时Q最小,即到点直线y=bx+a的“整体距离”最小。
总结
1/3
什么是回归直线:如果散点图中点的分布从整体看大致在一条直线附近,我们就称这两个变量之间具有线性相关关系,这条直线叫做回归直线。
2/3
求解过程:先求 x、y 的平均数 x_=(3+4+5+6)/4=9/2,y_=(2.5+3+4+4.5)/4=7/2,然后求对应的 x、y 的乘积之和 :3*2.5+4*3+5*4+6*4.5=66.5 ,x_*y_=63/4 ,接着计算 x 的平方之和:9+16+25+36=86,x_^2=81/4 ,现在可以计算 b 了:b=(66.5-4*63/4) / (86-4*81/4)=0.7 ,而 a=y_-bx_=7/2-0.7*9/2=0.35 ,所以回归直线方程为 y=bx+a=0.7x+0.35 。
3/3
也可以用最小二乘法求:由于绝对值使得计算不变,在实际应用中人们更喜欢用:Q=(y1-bx1-a)²+(y2-bx2-a)²+······+(yn-bxn-a)²,这样,问题就归结于:当a,b取什么值时Q最小,即到点直线y=bx+a的“整体距离”最小。
注意事项
公式千万不要看错
两种方法按个人喜欢来用