关注我们
QRcode 邮件联系 新浪微博
首页 > 清境资讯 » 正文

PLS回归是个啥?与线性回归有什么不同?

   条点评
后台-系统设置-扩展变量-手机广告位-内容正文顶部

在进行回归分析时,通常都是考察多个X对Y的影响,但有时复杂的研究也会涉及研究多个X对多个Y的影响,尤其是数据存在当自变量存在多重共线性问题时,普通的多元线性回归无法很好的解决问题。偏最小二乘法回归则能很好的解决这些问题。

一、概念

PLS回归(Partial least squares regression,偏最小二乘法回归)是一种解决共线性问题、多个因变量Y同时分析、以及处理小样本时影响关系研究的一种多元统计方法。

二、原理说明

PLS回归集合了主成分分析、典型相关、多元线性回归三者于一。简单说明,PLS的原理可以理解为:

PLS回归运用主成分分析的原理,将多个X和多个Y,分别浓缩为成分(X对应主成分U,Y对应主成分V),然后借助于典型相关原理,可分析X与U的关系,Y与V的关系;以及结合多元线性回归原理,分析X对于V的关系,从而研究到X对于Y的关系。

在进行回归分析时,理论上要求因变量正态,并且样本量不能太小等,如果样本量很小(一般小于100,如果样本量过大比如超过200则不能使用PLS回归),又希望研究影响关系,此时则可以使用PLS回归。

三、案例应用

本案例研究身体特征指标体重X1、腰围X2和脉博X3,对于训练指标单杠Y1、弯曲Y2和跳高Y3的影响关系,样本数据为20个。由于数据样本量非常小(20个),并且因变量为3个无法概括成一个,并且3个X之有着共线性,因此使用PLS回归进行研究。

1、研究步骤

PLS回归一般的分析步骤分为两个步骤,分别如下:

第一步:确认提取主成分数量,通过交叉有效性和投影重要性VIP分析表格进行确认。

第二步:基于第一步主成分数量基础上,进行回归分析。

其中又包括以下几个步骤:①建立主成分与Y的关系表达式、②描述主成分与研究项之间的相关系数loading值、③描述主成分与研究间之间信息解释率(浓缩率)即精度分析、④建立原始自变量X对Y的回归方程以及⑤X对Y的解释力度。

2、操作步骤

使用途径:SPSSAU→进阶方法→PLS回归

放置位置如下:

3、结果分析

第一阶段:确认提取主成分数量。先不设定提取的成分数量,点击“开始PLS回归分析”。

①投影重要性指标汇总

投影重要性指标汇总表SPSSAU-VIP指标直方图

投影重要性指标VIP值汇总表可用于辅助判断主成分数量,并且更多用于反映X对于Y(整体)的影响力度。值越大说明解释力度越强,如果说主成分继续增加,VIP值并没有明显的增加,则说此时的主成分个数为最佳提取个数。

上图表中显示,1个主成分和2个主成分时,3个X对应的VIP指标变化均很小,仅X3有着一定变化(从0.414到0.565),2个主成分到3个主成分时,3个X对应的VIP指标变化也很小。因而说明可能1个主成分或者2个主成分均较为适合,具体还可以结合交叉有效性进行综合决定。

②交叉有效性分析

交叉有效性分析

上表展示的是提取不同主成分个数时的误差平方和SS,预测误差平方和PRESS,以及Qh共三个指标。

常见的判断主成分个数的标准是Qh大于0.0975,说明该主成分对模型是有贡献的,如果Qh小于0.0975,意味着该成分对于模型没有贡献。

由上表可知,只有当主成分为1时,Qh值符合判断大于0.0975,第2个或者第3个主成分对于模型没有贡献,因此最终选择1个主成分作为结论。

第二阶段:确定提取主成分个数后,回到分析页面,将【成分数量】改为1,即提取1个主成分。点击开始PLS回归分析。

SPSSAU-PLS回归分析界面

①主成分与研究项数学关系表达式

SPSSAU智能分析

②主成分与研究项相关分析(loading值)

上表用于分析主成分与分析项间的相关关系,loading值即为主成分与研究项之间的因子载荷系数(factor loading)值。

由上表可知,主成分U1与原自变量X1、X2、X3的因子载荷系数值分别为0.066、0.676、-0.359。说明主成分U1与X1、X2的相关关系更紧密,有较强的正相关关系,主成分U1与X3呈负相关关系。主成分V1与Y1,Y2,Y3均有着负向的相关关系。

③因变量Y与自变量X间关系之回归系数

SPSSAU-标准化回归系数

上表格展示因变量Y与自变量X之间的回归关系表达式,包括每个因变量Y与所有自变量间的关系表达式,具体如下:

Y1(单杠)=-0.202*X1(体重)-0.264*X2(腰围)+0.082*X3(脉搏)Y2(弯曲)=-0.245*X1(体重)-0.321*X2(腰围)+0.099*X3(脉搏)Y3(跳高)=-0.084*X1(体重)-0.110*X2(腰围)+0.034*X3(脉搏)

④精度分析

以上两个表分别反映的是主成分对U1和V1对应研究项的信息提取情况。实际研究中,一般只需要分析主成分U与X的精度分析;主成分V与Y的精度分析。原因在于主成分U为X的信息浓缩,主成分V为Y的信息浓缩。

由主成分U与研究项精度分析表可知,主成分U1对于所有3个X信息提取比例是0.695,提取信息较高。X1,X2的信息提取比例非常高(分别是0.898和0.925),但是主成分U1对于X3的信息提取比例较低为0.261,意味着主成分U1无法提取出X3的信息量。

由主成分V与研究项精度分析表可知,主成分V1对于所有3个Y信息提取比例是0.735,提取信息比例高。主成分V1对于3个Y都有着较高的信息提取,分别是0.775,0.883和0.549。

④投影重要性指标汇总表

从上表可知,X1对于所有Y的解释力度最高(VIP值为1.336),其次是X1(VIP为1.022),X3对于所有Y的解释力度最低。

其他说明

1、主成分是以成对形式出现,比如结合VIP分析和交叉有效性分析,得出主成分数量为2,其实是两对主成分;U1和V1为一对;U2和V2为一对; U1,U2代表对于X的信息浓缩; V1和V2代表对于Y的信息浓缩。

2、PLS回归适合小样本量(不超过200),自变量存在多重共线性以及同时研究多个X对多个Y的影响。

后台-系统设置-扩展变量-手机广告位-内容正文底部
标签:成分 分析 回归
[艾尚轻橙嗖代理到底需要上多少货,萱萱业内最强的百度霸屏]艾尚轻橙嗖代理到底需要上多少货?萱萱业内最强的百度霸屏!
马特量化机器人投资的钱多久回本? 想了解找谁??--伦娜综合门户网

已有条评论,欢迎点评!