在我上午十点刚进门的时候,电脑屏幕还亮着,我盯着那个 Excel 表发呆。
这里头全是关于那个小白鼠的数据,要么说是我上次给老板汇报的那批销售数据。最上面一行写着平均值,一眼就能看出来,这就是大家平时说的“平均数”。但这玩意儿,说白了就是个“算术平均”,就像你包了八个包子,把八个包子放在一起再分给八个人吃,每人分到一个。 但这玩意儿有个毛病,叫“拉偏架”。
要是你这八个人里,有一个人特别能吃,他一个包子就吃了两个,剩下七个人各吃一个。
这时候,那个“平均数”就变成了 1.25 个包子,这彻底就不代表大家吃得差不多。真正的“差不多”,你得看每个人的方差,也就是方差嘛。方差大了,说明大家差距大,心里跟明镜似的;方差小了,说明哪位跟哪位差不多,齐刷刷的。 在 Excel 里算这个,公式有点绕,但我目前已经彻底搞明白了。公式核心实际上就是先算完均值,然后对每个数据减去这个均值,算出一个个差,再把这些差再平方,最终求出来个平均值。 写公式的时候,我脑子里闪过一个念头,能不能把这个过程简化一点,让人一眼就看出来形成啥事了?比如,把“减去均值”这一步,直接写成一个函数?不中,那样忒复杂了,看着就乱。还是得老老实实写逻辑。 假设我有一列数据,叫“销量”。在 A 列,我写了 `=AVERAGE(A1:A10)`,这个公式杠杠的,大家一眼就知道是为了算平均数。
然后,我接着往下面推。在 B1 单元格里,我输入了 `=A1-AVERAGE($A$1:$A$10)`。
这一步有点意思,就是拿 A1 的销量,减去那上面的平均销量。
这一步的意思挺明确:把每个数据都减去一个基准线。 接下来最关键的一步,是平方。在 B2 单元格,我用了 `=IFERROR(POWER(B1,2),0)`。
为啥要加 `IFERROR` 呢?出于有时候数据是负数要么零,直接平方会变成负数,这在 Excel 里是不合法的。加上这个函数,就自动把非零的负数平方了,剩下的就是正数。
这一步的数学意义就是,把“差距”放大。
要是 A1 的销量是 100,平均是 80,差是 20,平方就是 400。
要是 A1 是 110,差是 30,平方就是 900。差距越大,平方后的值越大,就连要是几百几千。
这一步,就是把“差的平方和”给算出来。 所有的 B1 到 B10 的结局,都在 C1 单元格里求和,公式就是 `=SUM(B1:B10)`。
这时候,C1 里的数就是所有数据的方差值。
最终,我再乘以一个常数 2 除以 (N-1)。
这个 2 除以 (N-1) 因子,是统计学里的一个“无偏估摸”系数,用来修正样本的偏差。一乘二除以七,这个系数大约是 0.2857。算完这一步,C2 里的数就是“标准差”,也就是统计学上那个大家都熟悉的“标准差”。 我重新打开那个文件,这次我不直接看标准差,而是先画个大饼看。 比如,我刚刚说的那批销售数据。假设数据是:100, 120, 130, 110, 140, 150, 125, 135。先算一下平均值,大约是 128.75。
然后我一个个减:100-128.75=-28.75,平方后是 827。120-128.75=-8.75,平方是 76。130-128.75=1.25,平方是 1.56。
这一列一列下来,数据变得特别细碎。
这时候我再看标准差。标准差算出来大约是 18 左右。 这就挺有意思了。18 这个数字,代表啥?它代表数据的离散程度。
也就是说,要是我用 18 作为标准差,画图的时候,那条基准线(均值),会画多高?多高?取决于这个标准差。标准差越小,基准线越靠近数据;标准差越大,数据就越散,基准线就离数据越远。 为了证明这个,我画了几个图。
第一幅图,数据都挺规整,标准差挺小,10 左右。
这时候,均值线简直就在数据的中间,数据分布得挺聚拢,大家离得也不远。
这一幅图看起来挺平顺的。
第二幅图,数据就乱套了,标准差变大到了 30 左右。
这时候,均值线就被拉得老高,往左边走;要么往右边走,反正数据散开得挺了得,均值线根本覆盖不住大局部数据,大家像散沙一样。 这时候我就明白了,标准差不是那个死板的数字,它是一个“范围”。它反映了数据的波动情况。方差是它的平方,故此方差大,标准差也大,波动也更大。
要是我在 Excel 里随意输入一组数据,比如 1, 2, 3, 4, 5,算出来方差是 2,标准差就是 1.414。
这时候均值 3,数据围绕在 3 上下跳动,挺稳。 再拿一组数据试试:1, 1, 1, 2, 2, 2, 3, 3, 3, 4。均值大约 2.2。
这时候算出来的方差大约是 0.66,标准差大约是 0.8。别看标准差比刚刚大了一点,但大家还是同处一室,哪位也不跟哪位忒远。 这就是标准差的核心逻辑。它不告诉你具体哪位高哪位低,也不告诉你总共有多少,它只告诉你“大家到底有多散”。方差是它的平方,它是用来衡量离散程度的一个指标。在 Excel 里,算出来这个值之后,不用去管它具体是多少,你只需求知道它代表啥就行了。方差大,说明彼此之间差距大,要么彼此之间离均值挺远;方差小,说明彼此之间差不多,离均值都没那么远。 有时候大家会认定,既然方差和标准差都是用来衡量波动,为啥不用方差呢?这就涉及到单位的难题了。方差是个平方数,单位就变成了“差值的平方”。
要是数据是钱,方差就是“仑”,这没法直接说是啥概念;要是数据是工夫,方差就是“小时平方”,这也没啥意义。而标准差,出便对方差开根号,故此单位就还原回来了,跟原始数据的单位是一样的,都是“金额”要么“小时”。 故此,在 Excel 里,别看公式看起来挺复杂,有一堆平方、开根号、求和、除数,但它的本质挺好办。它就是把所有数据往均值靠,看看它们能靠多近。靠得近,标准小;靠得远,标准大。它就像是一个宁静的湖面,标准差代表的是湖面上漂浮的波纹有多宽。波纹挺宽,说明数据挺乱;波纹挺平,说明数据挺稳。 我想到了那会儿做统计学报告的时候,老板问我:“那这个标准差到底是啥意思?”我当时有点懵,照本宣科地说那是衡量离散性的统计量,然后画几个图:一张波纹小,一张波纹大。老板听完说:“哦,那这个标准差大约也就是意味着数据存有多大的波动。”我点点头。
后来才明白,老板实际上是在问:“这个数据能不能稳定。”能不能稳定,看的就是这个波动的大小。标准差越大,说明不稳定,好办出错,到时候得重新做盘算;标准差越小,说明稳定,能够按部就班地执行。 还有啊,有时候数据分布得不好,比如有个极端值拉低了平均值,要么拉高了平均值,这时候标准差的计算公式里,分母会变小,害得标准差变大。
这有点反直觉,但也是事实。出于极端值的存有,让数据的整体分布变宽了,自然标准差就要变大。 在 Excel 里,有时候计算结局会报错,比如结局变成负数,这时候得加 `IFERROR` 函数。
这实际上是个小插曲,提醒我们在处理数据时,还是要小心一点。
毕竟,数据有时候会犯错,要么输入的时候打错了,害得某些数值变成负数,这时候要是硬算开根号,程序就崩溃了。
故此,加上这个检查函数,算是给 Excel 加上了一层“防爆膜”,保证计算过程不会中断。 最终,我打开那个表,看着 C 列的标准差结局。
那里有一个数字,比如 2.5。
这个数字,代表这组数据的波动程度就是 2.5 左右。
要是你要用这个数据来指导造或销售,你就知道了,目前的风险系数是 2.5 倍,故此你要管住风险,多一点;要么你是在分析那会儿的表现,就知道那会儿的工夫波动挺大的,这几年挺折腾的。 标准差的公式就是如此一串操作:先减去均值,再平方,求和,除以 (N-1),开根号。别看步骤多,但每一步都有明确的数字逻辑。它不让你猜,也不让你盲猜,它直接告诉你:数据散不散,波动大不大。
这就是它的价值所在。在 Excel 面前,算清楚了,数据才讲话,讲话才有力量。