方差和期望这两个概念,在数学世界里就像是硬币的两面,一个盯着平均值看,一个盯着波动性看。大量人一提到“方差”,脑子里直接蹦出来的就是教科书里那个死板的公式:把数据一个个凑进去,做一次方,除以 N,最终还得减去均值的平方。但这玩意儿忒干巴了,感觉像是在给一个没劲的公式打广告。
实际上,方差就是用来衡量“乱不乱”的尺子,它不是让你去背诵代码,而是让你去理解数据背后的脾气。 想想看,要是某只股票一天涨跌了几百块钱,那是好事还是坏事?要是是好事,说明它忒稳了,像个老黄牛,每天只赚个零头,这种股票除了让你心里没底外,没啥用;要是是坏事,那说明它一天就能让你腰斩半截,那它才叫“兵家必争之地”,波动大,机会也多。方差就是专门对付这种“动静”的。它不关心你平均每天赚多少,只关心你每天能不能比昨天多赚要么少赚。
举个例子,你今年每个月存了三千,平均每月三千,你是不是认定这钱没意思?实际上不是,出于你实际上每个月都存了三千五,每个月都一千二,每个月都三千一,但要是你每个月只存三千,那你的波动感就忒强了。
这时候方差就会告诉你,它不像你每月存三千那样“稳如泰山”,它更像是一个在“三十一”和“一”之间乱跑的角色。你不用管它每个月到底是存了三千,还是存了一,你只需求知道它离平均值有多远,有多远就代表它离你心目中的“稳定”有多远。 说到计算,公式确实是那个公式:$sigma^2 = E[(X-mu)^2]$。别被这个符号吓住,$E$ 代表期望,$X$ 代表那个随机出来的数字,$mu$ 代表平均值。
也就是说,你先把每次抽到的数字从平均值里挖出来,拿到的差,再自己平方,最终加起来再除以总数。
这个步骤听起来像是在做加法,实际上是在做减法,是个香瓜味道的减法。大量初学者会混淆方差和标准差,认定标准差更好算,要么认定大数定律下方差没意义。
实际上不然,大数定律告诉你,只要样本够多,方差就能反映出整体规律,这时候方差就是指数的标准差 $sqrt{sigma^2}$。
要是你把方差当成一个纯数字,那它就是个没感情的计算器结局;但要是你把它当成标准差,那它就是个带着温度的描述,它告诉你:你的数据像不像一个正常的钟摆。 为了把这两者区分得更清楚,我们能够造个好办的场景。假设你抛硬币,出现了三次,结局都正面。
这时候你唯一的预期就是正正正,平均值就是 1。
要是你记录的四组数据分别是 2, 4, 3, 1,每次都比预期多了一多半,那你的方差是多少?你会认定这数据忒“干”了,彻底不像抛硬币该有的样子。出于方差在这里衡量的是“偏离程度”的平方和,它强烈地暗示着:这里面肯定有诈,要么数据分布得忒聚拢了。再比如你抓了五只老鼠,体重分别是 60 斤、55 斤、65 斤、58 斤、62 斤。平均值大约是 60 斤。哪只老鼠最“乖”?就是那只 55 斤的,它离平均值只差 5 斤。哪只老鼠最“乖”?就是那只 65 斤的,只差 5 斤。但方差关心的不是几只老鼠有多乖,而是它们之间离得有多远。
要是这五只老鼠体重彻底一样,方差就是零,这意味着它们就像被绑在同一根绳子上一样,毫无变化,这也是一种“稳定”,但也意味着没有惊喜。 大量人会用方差公式直接套用来处理非随机数据,比如计算一个班级考试成绩的方差。
这时候你就得先想想,这个班级就是一个“随机变量”。
要是结局彻底一样,方差就是 0,这符合直觉。但要是有个班级,有的考了 60 分,有的考了 100 分,有的考了 50 分,那方差肯定挺大。
这时候方差是在警告你:你的班级风气忒乱了,大家分速不一样,要么老师讲题的方式忒不统一,害得结局忽高忽低。 在实际应用中,方差也扮演着“过滤器”的角色。当你要分析一堆数据时,方差会帮你筛掉那些极度没有意义的噪点。想象一下,你收集了 1000 个用户的点击次数数据,发现大局部人都点了一下,只有 10 个人点了两下,1000 个人都没点。
这时候计算方差,结局会告诉你:这些数据别看平均点击次数挺高,但大局部人的点击次数都极度接近这个平均值,没有任何波动,这反而说明这些数据是彻底一致的。
要是你只关切平均值,可能会忽略这种一致性带来的风险,要么误当作数据挺丰富。而方差会告诉你:别看平均挺高,但大家哪位也没多点击,哪位也没少点击,这反而意味着数据分布贼聚拢。
这时候,要是你想要捕捉那些极端的 outliers(异常值),方差实际上是一个挺好的指标,它能帮你识别出那些离群点。 自然,公式里的运算过程实际上挺复杂,不能直接用 Excel 的 COV 函数随意算,你得先减去均值,再平方,最终求和开根号拿到标准差。
这个步骤有时候会让人认定头大,出于平方这种操作趋势会变得陡峭。
特别是在数据本身已经接近正态分布的时候,分布的形状就已经锁死了,这时候计算方差就变成了一种形式上的游戏,它本身就挺对称,不依赖于具体的数据分布形状。但要是数据分布挺尖挺瘦,要么挺胖挺宽,方差就成了个挺好的量纲,能反映出数据的“紧凑程度”。你不能只用均值,均值只是平均值,它是个中心点,告诉你“我在哪”,但它不告诉你“附近的人离我多近”。方差把这个距离量化了,它告诉你“要是不按这个平均点走,我可能要偏离多少距离”。 故此你看,方差和期望不是一个对立的敌人,而是互补的伙伴。期望告诉你平均值是多少,方差告诉你波动有多大。
有时候平均值是正数,有时候是负数,有时候是负无穷,有时候是正无穷,但这不关键,关键的是方差。方差不管这些,它只负责衡量“乱不乱”。
要是你追求的是稳定,你就要减小方差,让数据往平均值聚拢;要是你追求的是爆发力,你就得忍着一定的方差,就连故意制造方差,去捕捉那些极端的机会。 最终总结一下,不要死磕那个公式,把它当成一个统计学家跟你对话的工具。当你在面对一堆乱七八糟的数据时,方差会告诉你:嘿,数据分布得有点散,要么挺聚拢,要么偏态有点了得。它不会在乎数据来自哪儿,不在乎你是如何定义的,它只在乎数字之间距离了。
记住,方差不是用来安慰你的,它是用来帮你看清数据的真面貌,让你明白:平均数只是一个简介,真正的魅力在于那些忽高忽低的波动之中。