翻翻那些密密麻麻的公式,大量时候让人头大。
实际上大局部工夫,我们搞错的是理解,而不是数学本身。想象一下,抛硬币。正面朝上概率 0.5,反面也是 0.5,加起来勉强凑成 1。但这时候你就认定不对劲了,出于理论上它们应当互斥,加起来务必等于 1。
为啥?出于每次抛硬币,结局是非黑即白,没有中间地带。
这就是集合论里的补集概念,用数学语言去描述,就是 $P(A) + P(A^c) = 1$。
要是 $A^c$ 是“非正面”,$P(A)$ 是“正面”,那剩下的只能是反面。
这个逻辑贼直白,不需求任何 fancy 的术语堆砌,就是好办的守恒关系。 再换个角度,寻思连续型随机变量,比如一个电子在导线里的位置。
这时候你不能用概率判断它下一秒在哪儿,出于它是均匀分布的,任何点形成概率都是 0。
那如何办?这时候就得用到期望值这个工具。期望就是平均数,它是所有可能结局加权后的总体会聚。
比如掷骰子的期望就是 $(1timesfrac{1}{6} + 2timesfrac{1}{6} + dots + 6timesfrac{1}{6})$。
要是你把这个式子算出来是 3.5,那就意味着你长期扔一百次,大拇指踩在 3.5 这个点上的次数会占 50%。别看骰子本身是个六面体,平均下来就是 3.5,但这跟连续变化的电子位置没关系,不过算个积分要么求和的时候,这两个概念确实沾边。 这时候你可能会想,连续型变量如何计算概率?连续型的概率密度函数,$f(x)$,有个特例是积分 $int_{-infty}^{infty} f(x)dx = 1$。
这看起来像是一个守恒定律,它把无限小的面积填满了整个轴。但要真正理解这个,你得明白概率密度本身不是概率。别被"0 到 1"的区间吓住了,在连续型里,$P(A) = int_a^b f(x)dx$。出于区间长度能够是无穷大,故此积分结局能是任何正数,就连无限大。
这跟离散型彻底不同。离散型的概率之和是固定的 1,但连续型的“质量”分布才是单位的。
这个思维转变挺大的,大量初学者好办在这里卡壳,认定连续型的面积如何可能是概率?实际上不是,它是概率密度,单位是“每单位长度的概率密度”。
你看,$P(X le 1) = int_{-infty}^1 f(x)dx$,这个面积代表从负无穷到 1 这条线段下的所有面积总和。 咱们回到正态分布吧,这是统计学里最出名的那个。对称的钟形曲线,均值 0,标准差 $sigma$。
要是你问“在 0 到 3 个标准差范围内有多少概率”,答案大约是 99.7%。
这个数据忒精确了,一般是标准的。
为啥如此靠后?出于大多数数据都聚拢在均值附近,离得越远,概率就越稀疏。假设你给这个分布加上个高斯噪声,那它就是个完美的正态分布。
要是数据里有异常值,你能够通过拉普拉斯分布来建模。
不过高斯分布的推导过程实际上挺绕的,涉及到傅里叶变换要么特征函数,那是纯数学家的战场,咱们一般/平平人只要知道它服从 $N(mu, sigma^2)$ 就行。至于参数如何估摸,贝叶斯公式时常用到,$P(theta|D) = frac{L(theta|D)P(theta)}{P(D)}$。其中 $L$ 是似然函数,$P$ 是先验,$P(D)$ 是无后验的归一化常数。 这里要注意,$P(D)$ 是个贝塔分布,它不依赖具体的参数 $theta$,出于它是遍历所有可能 $theta$ 的积分结局。
要是你不知道参数的先验分布是啥,那这个公式就没法用了。
这时候就得用最大似然估摸,也就是让似然函数的导数为 0 的地方。
比如二项分布,$P(X=k) = C(n,k) p^k (1-p)^{n-k}$。对 $p$ 求导找零点,结局就是 $hat{p} = bar{x}/n$。
这实际上就是说,样本比例 $X/n$ 的期望就是真参数的无偏估摸量。
你看,从理论推导直接跳到统计推断,中间实际上只有一步之遥,就是最大化一个函数。 还有没啥?对了,卡方检验是判断两个分布是否拟合的常用方式。
要是假设成立,卡方统计量 $chi^2 = sum frac{(O_i - E_i)^2}{E_i}$ 应当服从自由度为 $k$ 的卡方分布。
这里的 $O_i$ 是观察频数,$E_i$ 是期望频数。你只需求把每一个格子算出来,再相减平方除以期望,最终加起来。
这个公式看起来有点吓人,但本质挺朴素:要是预测错了,误差就大,就是平方,除以期望是为了让不同大小的区间影响权重一致。 最终说说假设检验里的回绝域。
要是 $H_0$ 成立,统计量 $T$ 的分布是 $f_T(t)$。你要设定一个临界值 $c$,使得 $P(T > c) = alpha$。
这就是显著性水平。你选得越小,犯第一类毛病的概率越小,但第二类毛病概率就越大。
这就好比拿放大镜看钟表,倍率越大看得越清楚(第一类毛病小),但可能把蝴蝶看成飞蛾(第二类毛病大)。
这实际上就是贝叶斯概率的区间估摸难题。
要是你把后验概率的尾部切成两半,中间那个区间就是 95% 的置信区间。
这种直观的解释,比硬背公式关键得多。 把这些碎片拼起来,你会发现概率论就是个概率。
不是那种冷冰冰的定理,而是描述世界不确定性的语言。我们学习它,不是为了记住那些符号,而是为了在面对数据时,知道哪儿该信,哪儿该疑,该如何下结论。别被复杂的推导绕晕了,只要抓住几个核心直觉:守恒、平均、拟合、推断,你就掌握了这门课的门道。
有时候你就连不需求先验分布,直接用最大似然估摸也能干活。数学这东西,忒大了,大到有时候你会质疑它到底是不是确实存有。但只要你愿意慢慢拆解,你会发现它实际上就在你身边,就在每一次数据的背后。