在高中数学的复习或是日常做题时,方差这个概念往往让人认定枯燥乏味,出于它听起来就像是个冷冰冰的公式。但换个角度想,方差实际上就是衡量数据“闹腾”得如何样,要么说,一个数据点离中心有多远,直接拍板了我们能不能用它的平均值来代表整组数据的真水平。
要是数据特别规整,方差小,说明大家差不多,一起往一个方向跑;要是数据特别乱,方差大,说明大家各自飞,有的往北飞,有的往南飞,就连左拐右拐,这时候单靠平均值就看不清整体情况了。 说到具体如何算,高中老师一般会直接甩出一套长长的代数式,看着就头大。
比如 $s^2 = frac{1}{n}[(x_1-bar{x})^2 + (x_2-bar{x})^2 + dots + (x_n-bar{x})^2]$。
这公式看着吓人,但实际上逻辑挺好办:算出平均值,一个个数儿都减去平均值,算出平方,最终求平均。
为啥平方呢?出于平方之后负负得正,并且离中心的距离越远,平方之后数值爆炸式增长,这样在计算时就能把那些特别离谱的异常值给“压”下去一点,避免它们直接拖垮平均值。
不过,这种算法有个小毛病,叫平均偏差,当数据量 $n$ 特别大时,算出来的方差会特别小,出于分母是 $n$,分子里别看有个 $n$ 抵消了,但剩下的项还是和 $n$ 成正比,故此 $s^2$ 终究还是跟 $n$ 相关的,而不是跟数据的总量相关。
这时候要是数据量翻倍,方差也会翻倍。 实际上我们更关心的是标准差,出于它是方差的平方根,也就是“平均距离”。有了标准差,我们就能一眼看出数据的离散程度。
比如班级成绩,平均 90 分,方差是 1,标准差是 1,说明每个同学的成绩都在 89 到 91 之间,波动挺小,大家挺团结;要是方差变成 16,标准差就是 4,那这就意味着成绩可能在 80 分就连更低,要么 100 分以上,大家乱七八糟,互不干扰。 举个例子吧,假设有两组数据。
第一组成绩是 70, 72, 74, 76, 78。算一下平均值,正好是 74。一个个儿跟 74 比起来,分别是 -4, -2, 0, 2, 4。各自平方之后是 16, 4, 0, 4, 16。加起来是 40,除以 5,方差是 8。标准差就是 $sqrt{8}$ 约等于 2.83。
这说明大家距离平均分大约 3 分上下波动。 再比个劲大的例子。
第二组数据是 30, 60, 90, 120, 150。平均值是 90。计算过程略微费事点,可是逻辑一样。(-60)(-60) 是 3600,(-30)(-30) 是 900,然后是 0,(30)(30) 是 900,最终 (60)(60) 又是 3600。加起来是 9000。除以 5,方差还是 1800。标准差就是 $sqrt{1800}$ 约等于 42.43。
你看,同样的“波动幅度”(从 60 到 120),第二组数据算出来方差大多少?大量教材会故意如此设计,让你认定方差大一点就行,实际上标准差大一点,说明数据离均值更分散。 咱们再换个场景,比如某校高三年级的数学分数。班级 A 的平均分是 150,方差是 50,标准差是 7.07;班级 B 的平均分也是 150,但方差突然变成了 500,标准差变成了 22.36。
这时候别光看方差,得看标准差。班级 A 的分数都在 143 到 157 之间,相对稳定;班级 B 的分数可能飘到 125,也可能冲到 175,就连两班之间有 20 分的差距。
这就是为啥方差和标准差如此被看重的缘由,它们能告诉我们数据的“稳定性”。 还有一个细节,方差的计算里有个 $n$ 在分母上,这会让方差比“均方偏差”小大量。均方偏差是把方差再开方一次,它和方差彻底一样,只是单位不一样。方差的单位是数据单位的平方,故此没法直接和平均数加在一起比较大小。
比如成绩,方差是 10,标准差是 3.16,单位就是分。
要是你说成绩方差是 3,标准差是 1.73,你没法直接对比哪位更准,得看标准差。 有时候数据重复出现,计算的时候处理起来就有点费事。
比如一组数据全是 80 分,50 个。平均值是 80,每个数减去 80 都是 0,平方还是 0,加起来是 0,除以 50,方差是 0。标准差也是 0。
这说明全班所有人都是 80 分?不对,是这 50 个人得分都一样。
这时候方差确实忒小,简直为 0。 还有时候,数据里有混进去的“假”数据,比如本来 100 分,但录入的时候把 100 写成了 1000。
这时候这个 1000 会拉高平均值,也拉高方差。
实际上这种毛病数据应当及时剔除。在数据分析的时候,我们往往得先筛选,去掉那些明显离群的值,比如工薪阶层里混进了个富豪,要么物理题里出现了负分,这些都要排除,不然方差算出来就不如何样了。 实际上方差公式在统计学里是个大约念,它在描述分布、做假设检验、就连预测模型里都用得上。高中阶段可能只学了好办的版本,但原理是通用的。
特别是遇到复杂的数据结构,要么需求做回归分析的时候,方差就是核心指标之一。 再复述一下那段公式,确保没念错:$s^2 = frac{1}{n} sum_{i=1}^{n} (x_i - bar{x})^2$。
这里的 $n$ 是数据个数,$x_i$ 是个数据点,$bar{x}$ 是平均值。
关键是那个平方,不然负数减平均值会拿到正数,再加上负数,结局就反了。平方之后,所有数都是非负的,算出来的结局才是正的。 除了公式本身,我们还得注意计算工具。手算别看准,但好办出错。用计算器要么 Excel 的时候,直接求标准差函数方差,要么用公式 $text{VAR.S}(text{数据})$,结局是一样的。
特别是样本方差和总体方差的区别,高中有时候会考,总体方差除以 $n$,样本方差除以 $n-1$。样本方差是为了估摸未知总体时更准一点,出于总体略微被估摸多了点,分母用 $n$ 会偏大,害得算出来的方差偏小,样本方差用 $n-1$ 能够修正这个偏差。 最终总结一下,方差和标准差的区别,大家好办搞混。方差是个整体,单位是平方;标准差是个平均距离,单位是原始数据单位。
比如身高,方差是 $cm^2$,标准差是 $cm$。统计学家更喜爱说标准差,出于单位好理解,离均值多远,离多远自然好理解。 回顾一下刚刚的例子,班级 A 的方差小,波动小,说明成绩稳定;班级 B 的方差大,波动大,说明成绩参差不齐,就连两极分化严重。
这就是方差最大的魅力,它能用最少的参数,把数据的形态描述得清清楚楚。在真的生活中,甭管是研究天气、分析股票还是评价学生,方差都是我们判断风险要么评估稳定性的关键工具。
只要把公式背熟,把数据代入,方差不就自然出来了嘛。希望今天的分享能帮你在数学的世界里,把那些冰冷的数字看得更通透一些。