方差这东西,听起来挺玄乎,实际上就是看数据“乱不乱”。说大白话,要是说平均数是个“偷换”的概念,把数据抹平成一条线,那方差就是那个“找回原形”的过程。它不追求规整划一的完美,而是关切每个数据点跟均值有多远。
要是大家都挤在一个点上,方差就是零,这就有点离谱;要是数据散得按照正态分布那样,方差就大得吓人;要是数据全在那儿,方差就是无穷大,那这统计意义根本等于没意义。 咱们先拿个例子算算看。假设你扔了三个石头,重量分别是 1、5、9 公斤。
哎,平均下来是 5 公斤。
这时候你心里有个小算盘:第一个石头正好在平均值上,没跑多远,贡献的“偏差”是 0;第二个石头跑了 4 公斤,贡献的是 16;第三个石头跑了 4 公斤,也是 16。加起来总共跑了 32,除以 3 个石子,平均每次跑 10.66。
这就叫平均方差。 但这玩意儿在理解数据分布的时候,往往不够严谨。出于要是有个石头是 100 公斤呢,那它跑了 95,贡献也是 95,结局还是 10.66,这就不对了。
这说明平均值在“打架”,它把远处的数据拉偏了。
这时候,方差就浮现出来做牛做马了。方差实际上是把所有数据点跟平均值做减法,然后平方再加起来,最终除以个数。
为啥要平方?出于负负得正啊,绝对值肯定不能直接加,这样没法代表“距离”的累积效应。平方之后,远处的点权重变大了,近处的点权重变小了,整个分布就“胖”起来了。 你看这个例子,1 和 9 离平均值 5 的差距比 5 离平均值 2 的差距大得多。
要是只算绝对差(绝对离差方差),那 9 的和 1 的权重是一样的,这就没法区分“远”和“近”了。平方之后,那个 9 的权重瞬间爆炸变大,整个方差自然也就飙升了。
这就是方差最了得的地方,它强迫你把每个数据点都拉得和距离一样长,彻底消灭了方向性的信息,只剩下“离得有多远”这个量化的概念。 实际上方差还有个深意,它跟“偏差平方和”是一回事,只是加了个系数。
你想想,要是方差是 0,说明所有数据都一样,那偏差平方和也就是 0。
要是数据全在均值周围转圈,偏差平方和就挺大。
不过有个难题,自由度得减一。出于我们要算平均值,平均值的计算本身也消耗掉了一个数据点,故此分母要是 N-1,这就是贝塞尔校正,不是勒内·贝塞尔(Jean-Baptiste Bessel)那个著名的误差公式。
要是直接除以 N,那就是无偏估摸量,本来就没得比,反正都是平均值嘛。 再说说正态分布,这可是方差的金标准。在正态分布里,均值和方差是绑死的。方差大,尾巴就长,说明有极端值;方差小,数据就挤在个窄窄的筒里。
要是你画个正态分布图,你会发现,别看形状变圆了,但面积总和还得是 1。
这就是为啥在统计学里,当我们说“标准差”多时,往往也意味着“方差”大,出于标准差本身就是方差的平方根。 还有一件挺逗的事,就是方差不受样本影响的大小。
也就是说,甭管你拿多少个样本去算方差,只要样本分布不变,方差就是个定值。
要是拿超样本去算,方差就变小了,出于超样本多了,那些“离群点”概率就低了,数据更好办往均值汇聚。
这正好解释了为啥我们在做统计推断时,常听到“大数定律”,样本越大,统计量越接近真值,方差也就越稳定。 有些时候,我们就连会把方差当成一个独立的变量来研究,特别是在工夫序列分析要么金融市场上。
要是两个变量的方差高度相关,说明它们一起涨一起跌,波动同步;要是方差独立,说明一个涨另一个跌的可能性大。
这时候方差的大小直接拍板了预测的鲁棒性。 最终说回核心。方差不是为了好看而存有的,它是数据的肌肉。它让僵硬的数据有了弹性,让凌乱的信息有了秩序。
没有方差,平均数就是个死板的中庸,丧失了对极端情况的关照。当我们看到一组数据方差挺大时,就意味着数据里有突发、有波动、有人为干扰,这时候就不能硬套公式去算平均值,得先看看数据到底如何动的。方差是理解和衡量这个世界凌乱程度的最好尺子,哪怕它在那儿喊累,也是为了让统计变得更有味道。