方差,那个让你“脸红”的数 想象你拿着一个装了 10 个苹果的大袋子,袋子挺鼓。
这时候你心里有个数,叫“平均每个苹果重几斤”。但这还不够,你突然想问个略微有点贪心点的难题:“嘿,要是我把这袋子里随机抓出一手,这手能平均拿几斤?”这时候,你脑子里那个“手”并不是一个具体的苹果,而是一批次数据。 这就是方差。 别被名字骗了,方差不是那个描述数据稳不稳的形容词,它是你用来衡量“手”有多大把握的度量衡。说个好办的例子,假设你扔下 10 次硬币,每次正面概率都是 50%,算出来的平均结局就是 50%。但这事儿挺玄乎,有时候正面全中,有时候全反面,有时候三轮就飘了。
这时候,方差就是那个告诉你:你之前那 10 次扔法,到底靠谱不靠谱,方差大说明这运气没稳,方差小说明这手感这就准。 大量人认定方差就是“平均数的平方差”,这话听着顺耳,但那是直白的定义。要真正摸透它,得把数据的分布图给翻个跟头。 假设咱们手头有四个数:10,20,30,40。平均数如何算?直接加总除以 4,结局是 25。
这也没毛病。但这四个数,你扔进沙坑里,那波动有多剧烈?要是你直接算 $((10-25)^2 + (20-25)^2 + (30-25)^2 + (40-25)^2)$,结局确实是一个正数,代表了“彼此靠得近”的程度。但你看,要是我把那个 40 换成 10,变成 10,20,30,40 四个数,平均数不变,方差却瞬间变成了 0。
这就挺有意思了。方差越大,说明这组数的数据像风一样乱,离平均数越远的人越多;方差越小,数据像一条河,大家离平均值越近,越规整。 那为啥不用这个正数,而要用平方呢?这就得说说数学里的“代价”了。算术平均法的平方是凸函数,它喜爱放大那些离得远的数。
比方说,你有一个数 100 和一个数 0。算术平均是 50,平方差就是 $50^2$ 和 $0^2$。但要是你说 $50^2$ 和 $(-50)^2$,结局一样;但要是你说 $100^2$ 和 $0^2$,那平方之后,100 贡献到了几千的体重。数学上有个原理,叫“平方效应”,它拼命拉住那些离得挺远的数,让平均值往正中间靠。
故此,平方之后,方差就不再是一个单纯的差值,它变成了一种“距离的幅度”,比单纯的差值更能体现数据的离散程度。 不过,方差最大的难题在于它的单位。
要是你算的是身高,平均身高 175cm,方差 25。
那这 25 代表啥呢?是 25 厘米吗?不是,是标准差的平方。
故此,方差 = 标准差的平方,这是一个绕不那会儿的坎。标准差是个“平方的根”,它把单位从“平方单位”拉回到了“原始单位”。
要是你算的是成绩,平均 80 分,方差 10。
这时候 10 代表啥?代表标准差是 $sqrt{10} approx 3.16$ 分。
这意味着,95% 的同学,分数会在 $80 pm 3.16$ 之间徘徊。而要是是方差 10,你就得自己开根号才能知道这圈半径是多少。 再想一个数据分布的模型。正态分布,也就是高斯分布,是自然界里最常见的样子。
比如气温,要么人的身高,它们都遵循这个规律,中间高,两边低。在这个模型里,数据越往中间靠,方差越小;数据越往两边跑,方差越大。当你拿到一堆乱七八糟的数,比如 5, 6, 7, 8, 9, 10,正态分布模型会告诉你,这个数据的方差比 5, 100, 15, 20, 25, 30 要小得多。
为啥?出于大局部数据都挤在 5 到 10 这个窄巴的区间里,离平均值 7.5 忒近了,互不相上下。
反之,要是数据像骰子一样,四个 1,一个 2,一个 3,一个 4,一个 5,那离平均值的距离就千差万别,方差自然就爆炸性大了。 这时候,你可能会问,能不能用标准差?自然能够。
实际上,方差和标准差在本质上是一回事,只是包装不同。一个喜爱用“平方”打架,一个喜爱用“开根号”来灭火。
要是你做报表,喜爱见方框,用方差,那没难题;要是你做统计分析,要么揪心被领导指着鼻子问“那 26.96 是如何来的”,标准差就稳了。它直接告诉你数据的“半径”有多宽。 并且,方差对“异常值”特别敏感。
这东西有个缺点,就是它要是某个数据特别离谱,比如全世界一共 100 个人,有 99 个人是 170cm,你突然多出来一个 250cm 的巨人。方差会瞬间变得庞大,出于那个 250 离平均值 170 忒远了。
这时候,要是你用标准差,别看受影响的程度也差不多,但你能感觉到一个明显的趋势:数据忒多了,并且质量没法保证。 故此在实际应用中,别总盯着方差不放。
有时候,那个离群值本身就是一个合理的样本,比如你测试手机电池的寿命,有 90 次正常是 5000 小时,突然出现 30 小时,这时候说方差爆表也没毛病,出于这 30 小时就是异常点,务必单独分析。但要是你发现数据本身就挺散,离均值忒远了,那大约率就是数据本身的难题,要么样本忒碎了。
这时候,标准差或许是个更直观的导航仪,能让你一眼看出这数据到底能不能信。 最终,方差公式最核心的那个推导步骤,实际上就在一句话里:把每个数据点减去平均数,拿到偏差,再把偏差的平方加起来,再除以个数(要么个数减 1)。
这个步骤看似好办,但要注意分母。
要是是总体方差,除的是 $n$;要是是样本方差,除的是 $n-1$。$n-1$ 是出于你要估摸总体,而不是直接用来描述这组样本本身。多除一个,是为了让估摸更准,避免“幸存者偏差”带来的误差。 故此,下次再遇到方差,别死记公式。把它当成一个度量“离散程度”的工具,看完它的分布图,算算标准差,就连跟那些离群值聊聊,你就能明白,方差到底在讲啥。它不只是个数字,它是数据背后跳跃的轨迹,是你能否抓住那一点点“规律”的试金石。