卡符网 > 生活 > 正文

​因变量是什么意思

2025-10-15 04:08 来源:网络 点击:

因变量是什么意思

因变量是什么意思

因变量是什么意思

可以毫不夸张地说,回归分析,是数据分析里最重要的基本思想。请注意,我已经不认为回归分析是一个简单的技术方法了!我把回归分析呀,提高到了一个新的高度,叫做基本思想

为什么这么说?是因为啊,绝大多数数据分析问题,都可以被规范成为一个回归分析的问题。而该回归分析问题是否定义清晰,是相应的数据分析问题能否成功的关键。这就是为什么,我希望通过一个系列的音频,能够把回归分析的核心思想,跟大家说清楚。

那么,今天是【回归XY】这个系列的第一期。今天主要想跟大家探讨一下:从基本思想的角度看,什么是回归分析? 今天,咱不谈任何数学上的技术细节,主要要谈基本的方法论和思想。

我认为,回归分析呀,就是研究XY相关性的分析。一句话,这里呢有三个关键词:第一、相关性第二、Y第三、X。接下来,咱们分别讨论一下。

第一个关键词:相关性。

这说明什么,这说明绝大多数,普通的回归分析是给不了因果关系的。这不是说因果关系不重要。恰恰相反,因果关系极其重要。但是呢,在绝大多数情况下,我们没有能力去探究严格的因果关系,所以啊只好退而求其次,改成呢,通过回归分析,研究相关关系。这是一个退而求其次的解决方案,是不是听起来比较悲观?其实不是的。为什么?因为,这个退而求其次的方案,比你瞎拍脑袋好多了去了。所以,这是第一个关键词,叫做相关性。

第二个关键词是:Y

Y是什么?俗称因变量。取义,因为别人的改变,而改变的变量。在实际应用中,Y刻画的是业务的核心诉求,是科学研究的关键问题。举几个例子看看啊:

例1,对于征信而言,业务的核心指标是什么?就是隔壁老王找我借钱,最后他呢,是还呢还是不还?如果还,我们定义老王的Y=0,这说明老王是好人。如果不还,我们定义老王的Y=1,这说明老王是坏蛋。这就是征信的核心业务诉求,这就是因变量Y。在这个情况下,因变量是一个取值为0-1的变量,俗称0-1变量。这是例1。

例2,对于车险而言,业务的核心指标,就是是否出险。隔壁老王买了我家车险,接下来12个月,他是否会出险呢?如果他出险,我们定义老王的Y=1,这说明老王是个马路杀手。如果他不出险,我们定义老王的Y=0,这说明老王是个天使。大家看,这种情况下,因变量Y又是一个取值为0-1的因变量。这是例2。

例3,咱们再往下考虑。对于车险而言,还有一个核心的业务指标,就是赔付金额。也就是说呀,一旦出险,保险公司到底要赔多少?例如,老王老李都买了我家车险。结果这两个坏蛋,都出险了。老王呢,是一小刮小蹭,作为保险公司,我赔付600元。那么,对于赔付金额这个业务指标而言,老王的因变量就是Y= 600元。但是啊,老李呢,在高速上出了一个大车祸,人车都伤的不轻啊,我作为保险公司赔付60000元。那么,老李的因变量就是Y=60000元。在这种情况下的因变量,赔付金额,是一个连续的因变量。如果我们再取一个对数,那么就是一个取值可以是正负无穷的、连续的因变量。这是例3。

例4,再看一个科学研究的例子。人类医学的一个重要使命就是攻克癌症。为此,科学家需要理解不同癌症类型的形成机制。那么,关键的科学问题是,隔壁老王,还有马路对面的老李,平时看起来呀,都身体倍儿棒,吃饭倍儿香。可是,为啥老王得了某种癌症,而老李没有呢?对于这个问题而言,老王的因变量就是Y=1,表示老王是个倒霉蛋;而老李的Y=0,表示老李不是倒霉蛋。Once again,这是一个取值为0-1的变量。这是例4。

不知不觉啊,咱们已经讨论了好几个“关于因变量Y”的例子了。不知道我说清楚了没有?简单总结一下,什么是Y?

Y就是实际业务的核心诉求,或者科学研究的关键问题。

最后一个关键词:X

然后,咱们再讨论一下,最后一个关键词X。X是什么?X就是用来解释Y的相关变量可以是一个,也可以是很多个。我们通常把X称作:解释性变量。而回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。那么,X到底会长成什么样呢?为了简单起见,咱们呢,接着之前例1,也就是征信的例子,重新讨论一下。

对于征信而言,我们已经讨论过了,Y=0或者1,表示隔壁老王是否还钱,这是我业务的核心指标。当老王找我借钱的那个时刻,我并不知道老王是否将来会还钱,也就是说呀,我不知道老王的Y呢。怎么办?我只能通过当时能够看得到的,关于老王的X,去预测老王的Y。这种预测是否会100%的准确?答:基本上不可能。但是,希望能够做的比拍脑袋更准。这是非常有可能的。为此,我们需要寻找优质的X。寻找过程如下:

假设,老王想找我借1万块钱现金,我得想想,他会还吗?此时,如果我知道他家有一个大大的house,价值几千万,我大概就不怎么担心你不还钱了。因为你不还钱,我就去你家收房子,这可比1万块钱值得多了去了。这说明什么?这说明充足的实物资产,尤其是可以抵押的实物资产,是有可能极大的影响一个人的还钱行为。如果这个业务分析是正确的,那么我们可以定义很多X,用于描述老王的财产情况。例如:X1表示你是否有房本儿;X2表示你是否有车本儿;X3表示你是否有黄金首饰可以抵押,等等。类似的,我们可以定很多X,都围绕着老王的实物资产打转

除了实物资产以外,老王还有哪些特征,有可能影响他的还钱行为呢?我们再想,如果老王工资月入十万,那还款一万块钱,不是小菜一碟吗?相反,如果老王月入一千,估计吃饭都有问题,哪来的钱还?这说明什么?这说明老王的收入,可能同他的还款行为有相关关系。那么,我们是否可以构造一系列的X,用于描述老王的收入情况?例如,我们可以重新定义X1是老王的工资收入;X2是老王的股票收入;X3是老王太太的收入(老王没钱,太太有钱也可以的),等等。于是,朴素的业务直觉,又引导我们产生了一堆新的X变量,他们都围绕着老王的收入打转

除了实物资产、收入以外,老王还有啥值钱的呀?有啊,老王有自己在社交圈中的尊严。就像电影老炮里面的顽主六爷那样,面子老大了,不会为了万把块钱,去赖帐,然后让街坊邻居、同事朋友都笑话,丢不起那人。如果,老王是一个这样的人,那他的还款意愿会很强烈。这个朴素的业务直觉说明什么?说明一个人的社交圈,他的社交资产是可以影响到他的还款行为的。如果这个直觉是对的,那么哪些指标会刻画一个人的社交资产呢?为此又可以头脑风暴一把,产生好多有趣的变量出来。例如,这一次我们定义X1是老王的微信好友个数;X2是微博好友个数;X3是电话本上的好友个数;X4是QQ好友个数,等等。我们可以生成一堆新的X变量,他们都围绕着老王的社交资产打转

以上就是一些关于X的讨论。

大家可以看,对于征信这一个业务问题而言,就这么随便一头脑风暴,就产生了那么多的X变量。所以呀,依赖于人们的想象力,以及数据采集能力,我们可以产生成千上万,甚至上百万千万的X变量。那么,在这个基础上,回归分析要完成什么使命呢?你看,现在咱们有X了,也有Y了,那么回归分析要完成什么使命呢?一般而言,至少是对参数化的线性回归模型,它要完成三个重要的使命:

1

使命1:回归分析要去识别并判断:哪些X变量是同Y真的相关,哪些不是。

而那些不相关的X变量会被抛弃掉,不会被纳入最后的预测模型。为什么?原因很简单,不干活的人多了会捣蛋,这个道理好懂吗?没有用的X不会提高Y的预测精度,而且会狠狠的捣蛋,拉后腿。所以,必须消灭。

关于这方面的统计学论述无穷多。以至于,统计学中有一个非常重要的领域,叫做“变量选择”。呵呵,王老师有幸在其中灌水不少,切身体会很多。这是使命1。

2

使命2:去除了那些同Y不相关的X变量,那么剩下的,就都是重要的、有用的X变量了。接下来回归分析要回答的问题是:这些有用的X变量同Y的相关关系是正的呢,还是负的?

也就是说,要把一个大概的方向判断出来。例如,对于老王的借贷还款行为而言,老王的股票收入同他的还款可能性是正相关呢,还是负相关?如果正相关,那么老王的股票收入越好,还款能力越高,我越敢给他借钱。否则,如果是负相关,那么老王的股票收入越高,说明他赌性越大,我越是不敢给他借钱。这样好懂吗?这是使命2。

3

使命3:在确定了重要的X变量的前提下,我们还想赋予不同X不同的权重,也就是不同的回归系数,进而我们可以知道不同变量之间的相对重要性。

又例如,老王老李都找我借钱。老王啊,每月基本工资X1=1万,但是股票收入X2=0。老李恰恰相反,没有基本工资,因此X1=0,但是呢,每个月股票收入X2=1万。请问哪一个的还款能力更好?请注意:他们的总收入这个月都是1万块钱。但是他们的还款能力恐怕是不同的,对吗?这个时候,如果我们能够通过数据建模,赋予X1和X2不同的权重,也就是不同的回归系数,这个问题就好回答了。这样怎么样?这就是使命3。

这就是回归分析要完成的三个使命:

第一、识别重要变量;

第二、判断相关性的方向;

第三、要估计权重(回归系数)。

简单总结一下。什么是回归分析?回归分析一句话:就是研究XY相关性的分析。我们碰到的绝大多数数据分析问题,仔细想一下,都可以被规范成一个回归分析的问题。而对于真实的工作而言,能否把这个问题,成功的规范成为一个回归分析问题,是实际项目成功的关键。而规范是否成功的一个具体表现就是:第一,因变量Y是否定义清晰;第二,解释性变量X是否精准有力

以上就是我对回归分析的一个快速的介绍,主要是一般化的基础理念,没有涉及到任何具体模型的技术细节。希望能够点燃大家对数据的好奇心,能够享受分析的快乐。