你知道回归分析的本质是什么吗别稀里糊涂做 - 表现 - 影响力影响力 - Powered by ZK!NT

我的中心

影响力 » 常识 » 问答 » 你知道回归分析的本质是什么吗别稀里糊涂做

返回列表

发新话题

回复该主题

查看: 40\|回复: 0	你知道回归分析的本质是什么吗别稀里糊涂做 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别新手上路生日帖子1 积分11 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2020-11-14 02:03 \|只看楼主北京哪家医院治白癜风疗效好 http://pf.39.net/bdfyy/ 第19讲观察性研究统计策略（4）：线性回归分析的历史、本质与基本方法无论实验性研究还是观察性研究，线性回归分析十分重要，尤其是现况调查和队列研究。在现况调查中，回归分析既可以初步探索变量与变量的关系，也可以通过多变量的回归分析开展因果关联性分析（下图）。现况调查的分析过程及回归分析的位置学习回归分析，首先得了解回归的历史，模型的定义，建模的意义等，本文将基于简单线性回归，来帮助大家全面了解线性回归分析。回归分析的历史 “回归”是由英国著名生物学家兼统计学家高尔顿(FrancisGalton,～.生物学家达尔文的表弟)在研究人类遗传问题时提出来的。为了研究父代与子代身高的关系，高尔顿搜集了对父亲及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。年，高尔顿发表《遗传的身高向平均数方向的回归》一文，他和他的同事通过观察对夫妇的身高数据，他发现这些数据的散点图大致呈直线状态，也就是说，总的趋势是父亲的身高增加时，儿子的身高也倾向于增加。当父母越高或越矮时，子女的身高会比一般儿童高或矮。他将儿子与父母身高的这种现象拟合出一种线形关系，分析出儿子的身高y与父亲的身高x大致可归结为一下关系：Y=0.+0.X(单位为米);假如父母辈的平均身高为1.75米，则预测子女的身高为1.米。这种趋势及回归方程表明父母身高每增加一个单位时，其成年儿子的身高平均增加0.个单位。这就是回归一词最初在遗传学上的含义。有趣的是，通过观察，高尔顿还注意到，尽管这是一种拟合较好的线形关系，但仍然存在例外现象：矮个父母所生的儿子比其父要高，身材较高的父母所生子女的身高却回降到多数人的平均身高。换句话说，当父母身高走向极端，子女的身高不会像父母身高那样极端化，其身高要比父母们的身高更接近平均身高，即有“回归”到平均数去的趋势，这就是统计学上最初出现“回归”时的含义，高尔顿把这一现象叫做“向平均数方向的回归”(regressiontowardmediocrity)。“回归”一词正式流传下来，不过后来的统计学看重的不是“向平均数方向的回归”而是高尔顿建立起来的回归方程。这个回归方程是一个函数，它不能准确反映父亲身高和子代身高的关系，但是却可以大致判断，并且在一个群体水平计算父亲身高对子女的影响的平均值，可以反映父亲身高与子女身高的因果关系。“回归”逐渐成为根据一种变量(父母身高)预测另一种变量(子女身高)或多种变量关系的描述方法，成为百年来经久不衰的统计学方法。回归关系，即一种用数学函数描述的因果关系。线性回归分析的模型 ▌什么是模型？模型(model)是指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式比如，地球仪是一个模型，它代表着用物理球体来反应真实的地球。最常见的是用数学的方式来反映客观事物。因此，全球各国有一个注明的数学比赛，叫做数学建模大赛！用数学方法来拟合现实事件发生的一般规律。统计模型也是一种数学的方式。比如，高尔顿的子代身高问题，我们想关心的是，子代身高到底受什么影响？我们能否预测它，能否用数学的方式预测它？此时，便需要构建数学模型。高尔顿给出了最为经典，但有十分简单的方式，用一元一次，或者多元一次模型来构建子代身高的模型： Y=0.+0.X(单位为米); 回归模型或者回归函数是一类统计学分析最重要的模型，除了线性回归模型，还有不计其数的各种回归模型，典型还有logistic回归模型，Cox模型，Poisson模型等。本文以线性回归模型为例，来探讨模型结构。 ▌线性回归模型定义线性回归按变量数量的多少可以分为：简单线性回归和多重线性回归。简单线性回归，也就是有一个自变量，数学上表达为一元一次函数，其模型可以表示如下：上述公式是基于样本得到的结果，b0和b1均为统计量，若该公式拓展到总体人群，则为公式中参数解释如下： x：自变量 b0、β0：截距 b1、β1：变量回归系数其中，关键的指标即为b1和β1，他们称之为回归系数，反映的是x对y的影响力，是当X每改变一个观测单位时所引起y的改变量。值得注意的是，这里x是真实的变量值x，而y带了一顶帽子，并非是y的真实值，而是成为y的预测值或者估计值。实际上，x和y没有严格上一一对应的关系，通过x产生的预测值，是接近于y但不等于y。 y预测值与y直接的差值我们称之为残差。残差反映了除了x和y之间的线性关系之外的随机因素对y的影响，是不能由x和y之间的线性关系所解释的变异性。可以这么来理解?：我们对y的预测是不可能达到与真实值完全一样的，这个真实值只有上帝知道，因此必然会产生误差，我们就用?来表示这个无法预测的误差。我们通过引入了?可以让模型达到完美状态，也就是理论的回归模型。结合残差，真实的y和x关系如下：同样的，多个自变量存在的情况下，多重线性回归模型的表示如下：其中，bk、、βk：回归系数，在多重线性回归中，被称之为偏回归系数，表示每个自变量都对y部分的产生了影响。意义与简单线性回归结果相似，反映的是x对y的影响力，是当x每改变一个观测单位时所引起y的改变量。残差与回归分析的本质残差的概念上文已经提及，但估计初学者还不知道，而大多数人也不知道残差究竟有何意义。我认为，如果你真的要掌握回归方法，对残差的理解十分重要。理解残差，就得理解回归分析，乃至数据分析的本质。一般认为，统计学是探讨组间的差异性，是探讨变量与变量的关联性。所以P0.05,被认为组间存在着差异，或者两个变量存在着关联。实际上这种说法都未真正涉及统计学的目的和内在的本质。真正的统计学目的和本质是，探讨数据变异的来源！为什么数据存在着变异，什么原因造成的。将出生28天的20只大鼠有些喂养高蛋白和低蛋白饲料，8周后观察其体重（g）。，，，，99，，，，，，，，75，，87，94，，，，从这一堆数据以及下图的直方图来看，数据是变异的。那么是什么原因造成的数据的变异呢？一般分为三种原因，一种是个体本身的变异、一种是测量造成的误差、还有可能是由于某些因素影响造成（由于一个变量不同水平的影响不同）。本例中，测量误差姑且不论，造成体重的变异必然的情况是个体本身的变异，除此之外，造成个体变异的原因，可能是由于高蛋白和低蛋白对体重影响不同造成。因此，我们就要探讨体重变异的原因来自何方，到底是只是来自于个体变异，还是蛋白饲料变量造成的差异？要解决这个问题，方法很简单，就是采用t检验（详见
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题