方差这东西,说起来好办,算起来也费劲,但别看公式那么冷冰冰,它实际上是在讲一件事:数据散得远不近。 有些数据就像一群跑马拉松的运动员,大家速度差不多,站在同一条起跑线上,那方差就是 0,这就是个死板但完美的分布,比如所有数字都刚好是 5。可要是有一个人突然跑了 100 米,另一个人只跑了 4 米,这时候方差立马就上天了,说明数据忒“飘”,忒不稳定,脑袋瓜子都差点被打碎。 在统计学里,方差(Variance)和标准差(Standard Deviation)是兄弟俩,实际上就是同一个东西,只是长得有点不同。标准差是方差的平方根,这个操作就像把分贝调低了八度,更好办让人听懂。但方差没必要非得开根号,它是个平方数,直接反映数据跟平均值“打架”的程度。 咱们不用去翻那些厚书,也不用背那些干巴巴的字母公式,直接看场景。 想象一下你开了一家烧烤店,老板想看看大家的口味如何样。你会问自己:好不好吃?大家吃得香不香?这时候你算平均值,比如算出大家都夸味道正,平均值是 80 分。接下来你就得去量每一个人的口味评分,有人打了 95,有人打了 72,还有人打了 68。
这时候要是你只盯着平均分,可能会认定味道挺正。但要是你想知道哪位最中意,哪位最不中意,就务必看方差。 要是方差挺小,比如只有 10 左右,那意味着所有人的评分都在平均值上下晃悠,大家口味差不多,老板不用愁。
要是方差挺大,比如差值到了 200,那说明有的人喜爱重口味,有的人偏清淡,就连有人认定辣得受不了,方差一上来,老板得赶紧招人要么改菜单,出于数据忒“炸裂”了,没法用平均数来概括整体。 举个具体的例子,咱们来算一个数组的方差。假设有一个数据集:[10, 20, 30, 40, 50]。
第一步算平均值,这五个数加起来除以 5,结局就是 30。
这一步人脑都能做,忒好办了。接下来算方差,需求用到这个公式:$frac{sum(x - bar{x})^2}{n}$。 你把每个数减去平均值 30,拿到 [-20, -10, 0, 10, 20]。
这一步减法后,数据分布变得挺对称了。接下来平方,(-20) 平是 400,(-10) 平是 100,0 平是 0,10 平是 100,20 平是 400。把这些加起来是 1000。最终除以个数 5,结局是 200。 这个结局 200 意味着啥呢?它的平方根(标准差)才 14.14。
这说明这组数据别看是个等差数列,但方差本身这个数值是 200。
要是把这组数据变成 [10, 12, 14, 16, 18],方差会变小。
为啥?出于数据更“听话”了,大家离平均值更近。
要是是 [10, 30, 50, 70, 90],方差就会爆炸式增长,出于数据离平均值(40)越来越远,扯得越来越远。 实际上方差的核心逻辑就在那儿:它不关心数据具体是啥,只关心它们离平均值的距离有多远。
要是数据分布均匀,离平均值的距离差不多,方差就小;要是数据两头高中间低,要么全是极端值,方差就大。
哪怕你的数据集全是负数,比如 [-1, -2, -3, -4, -5],平均值是 -3,每个数减去平均值后就是 [2, 3, 4, 5, 6],平方后你再除以 5,结局还是跟正数情况下的方差一模一样。
故此方差是个贼有普适性的指标,不管数据是正还是负,不管有没有单位,它都能告诉你“混乱”的程度。 大量人一听到方差就头疼,认定它忒抽象,非要公式。
实际上只要明白它的本质,就不难记忆。它代表的是“波动”。波动越小,方差越小。波动越大,方差越大。 在机器学习和数据分析里,方差也是个大杀器。
比如你要给一个神经网络训练数据,要是数据方差特别小,说每个样本简直都一样,那算法学不到东西,只能乱猜。
要是方差极大,说明数据噪声忒大,得去掉一局部。方差居中,训练才最稳。 有时候你会认定方差是个坏东西,出于它把大数变成了平方数,放大了极端值的影响。
比如数据里有 100 个 1,和一个 1000。平均数是 108.33。方差算出来会贼庞大,出于 1000 离平均值远得离谱。
这时候要是你只盯着方差,可能会误当作这组数据质量极差。
实际上归一化之后,要么通过标准化(Z-score),这就抹平了尺子,只看相对位置。
这时候方差就变成了衡量分布形状的一致性的指标。 故此在实际工作中,别死盯着方差看,要看它背后的故事。方差小了,说明数据干净利落、聚拢、稳定;方差大了,说明数据凌乱、分散、充满噪点。
有时候就连能够用方差来判断数据质量好不好。 最终再唠叨两句,方差和标准差不是一回事,但别把它和协方差搞混。协方差是看两个变量是正相关还是负相关,而方差是单方面看一个变量的离散程度。把这两个概念理清了,你就明白为啥统计学要如此折腾了如此多年。 总而言之,方差就是数据散度的度量。它不骗人,也不撒谎,它只计算事实。
只要掌握了它的计算公式,哪怕你是门外汉,也能看懂数据在变、在动、在变数。
毕竟,数据的真相,往往就藏在那些数字的跳动幅度里。