好,高中统计的公式,实际上并不像那些书上学得那么死板,更像是拿着一把锤子硬敲数据,看看能不能把形状砸出一个“正态”来。咱们不整那些虚头巴脑的“起初、其次、最终”,直接上手。 先说那巴思图,也就是那个最经典的统计图。你要是看到横轴是工夫,纵轴是成绩,图上有个长条从中间爆开,那大约率是个正态分布。
这时候画直方图就顺理成章了,长条越宽,说明那个工夫段里那个分数段的人数越多,它自然就挤在那堆数据里了。
要是数据少得连直方图都画不了,那只能看散点图,要么直接看饼图,反正饼图里那个占比最大的那块,大约率就藏着这个数。 再讲讲公式本身,实际上就那几行。
比如算平均数,就是把一堆数加起来,再除以个数。算中位数就好办了,把数从小到大排好队,中间那个数,要么中间两个数的平均数,就是中位数。求方差和标准差略微费事点,得先算方差,公式是 $frac{1}{n}sum(x_i - bar{x})^2$,意思就是把每个数跟平均值差,平方,加起来,再除以个数。标准差是方差的平方根,主要用来衡量数据离散程度。 功率分析听起来高大上,实际上就是个统计测试的功率,也就是测出结局显著性的本事。公式是 $Phileft(frac{z_alpha}{2sigmasqrt{1/n}}right)$,这玩意儿一打出来就是那个查表算法。查表的时候,先查显著性水平 $alpha$,再查 Z 分数,再查自由度,最终两边加起来拿到一个 $P$ 值。 那协方差和相关系数呢?协方差衡量的是两个变量一共朝哪边飘,公式就是 $frac{1}{n}sum(x_i - bar{x})(y_i - bar{y})$,正负号代表了方向,正号表示同向变化,负号表示反向。相关系数就是标准化后的协方差,满分 1,负分 -1,中间是个数,计算过程就是 $r = frac{sum(x-bar{x})(y-bar{y})}{sqrt{sum(x-bar{x})^2sum(y-bar{y})^2}}$。 要是到了多元线性回归,那公式就复杂了。$y = beta_0 + beta_1x + beta_2x^2 + dots$,这里面 $beta$ 代表斜率,$beta_0$ 是截距。记得算 $R^2$ 的话,就是回归值跟实际值差的平方和,除以总离差平方和,叫 R-squared,范围在 0 到 1 之间。 最终得提一下,统计里的“显著性”到底是个啥。就是 $P$ 值小于 0.05,就认定这事儿是确实,不是噪音。
这时候查表就得对,自由度是多少,看表格里对应的 $P$ 值,要是小于 0.05 就回绝原假设,否则就接纳。 咱们实际操作的时候,数据往往没那么规整。
比如算中位数时,数据可能是 1, 3, 5, 8, 12,那中位数就是 5。
要是是 1, 2, 3, 4, 5, 6, 7, 8, 9,中位数就是 5。算方差时,数据若是 10, 10, 10, 10, 20,方差就是 $(5 + 100 + 100 + 100 + 100)/5 = 90$。 有时候数据是离散的,比如 1, 2, 3 要么 3.0 到 3.5 之间,这时候得小心。
比如 3.0 到 3.5,中位数如何算?要是是 10 个人,5 个人是 3.0,5 个人是 3.5,那中位数就是在这两个数中间,也就是 3.25。
要是 100 个人,那中位数就在 3.0 和 3.5 之间,具体位置取决于总人数除以 2 的位置。 再比如算标准差,有时候数据是离散的,像 10, 20, 30,平均数是 20,方差是 $frac{(10-20)^2 + (20-20)^2 + (30-20)^2}{3} = frac{100}{3} approx 33.33$。标准差就是 $sqrt{33.33} approx 5.77$。
要是数据是 10, 12, 14,平均数是 12,方差是 $frac{(-2)^2 + 0^2 + 2^2}{3} = 4/3$,标准差是 $sqrt{4/3} approx 1.15$。 实际上高中统计的公式,说白了就是帮你理清数据关系的工具。画图让你一眼看清分布,算数帮你量化差异,查表帮你判断显著,最终综合起来看,是不是确实有啥规律。别被那些复杂的推导吓倒,核心就那几个步骤。
只要数据算对了,图画对了,话说到点子上,那些公式就只是形式,本质就是让你看懂数据背后的故事。