协方差cov计算公式推导-协方差公式推导

2026-07-04 13:12:05 作者 :佚名围观 : 2次

猜您喜欢：：

装修房子感悟心情短语(装修心情感悟)

扎头发的橡皮筋叫什么(橡皮筋扎发)

实际上开头那个对向量的叉积定义有点绕，咱直接看个更狠的：协方差就是衡量两个人“长得不一样”还是“长得忒像”。在统计学里，我们一般默认数据都是从 0 启动的，也就是均值 $mu = 0$，这就像把所有数字都平移到了坐标原点。
这时候协方差的公式就变得特别简洁，就连有点像个乘法公式：$sigma_{xy} = sum_{i=1}^n (x_i - mu)(y_i - mu) = sum x_i y_i$。这就意味着，要是你给正态分布的数据打了个标签，比如标签是 0 和 1，那么它们的平均值就是 0.5，方差再算一遍也是 0.25。
这时候协方差就简化成了 $sum_{i=1}^n x_i y_i$。
这个公式背后的直觉实际上挺怪诞，它把两个序列的“波动”给蹭蹭往来了。
要是两个序列都是正态分布，那它们的协方差本质上就是它们的标准差的乘积。咱们拿个具体的例子来拆解一下。假设有一堆数据，标签分别是 0 和 1，这个分布对应的标准差是 0.25。再给你一堆新的数据，标签也是 0 和 1，但这堆数据的标准差变成了 0.5。
这时候，你俩的协方差是多少呢？按照公式算，就是 $0.25 times 0.5 = 0.125$。
这个结局实际上挺怪的，出于它仿佛把两个序列的“相似程度”给乘起来了。等一下，这个理解是不是错了？出于协方差这个公式本身有个前提，就是数据是从 0 启动的。
要是你拿一组全是正数的数据，比如 0 和 1，算出来协方差是 0.125；但你拿一组全是负数的数据，比如 -1 和 0，算出来却是 -0.125。
这说明啥？这说明在“从 0 启动”这个假设下，协方差的方向性被抹平了。它只关心两个序列是否同向起伏，不管这个起伏是正的好还是负的坏。这就好比两个人跑步，要是两人步幅大小差不多，步伐方向一致，那协方差就是正的，说明两人一起快；要是两人步幅大小不一样，但方向反之，那就是负的。但这里有个陷阱，要是两人都特别慢，要么特别快，只要他们方向反之，协方差就会是负的。咱们再回到那个 0 和 1 的例子。假设第一个序列是 $x = [0, 1]$，第二个序列是 $y = [0, 1]$。算一下协方差，就是 $(0-0.5)(0-0.5) + (1-0.5)(1-0.5) = 0.25 + 0.25 = 0.5$。
这时候协方差是 0.5。而这两个序列的标准差乘积是 $0.25 times 0.25 = 0.0625$。
你看，如何差了 8 倍？这是出于在“从 0 启动”的假设下，方差实际上是 $0.0625$，而协方差是 $0.5$，这说明协方差起码是方差的 8 倍。这就让人有点困惑，为啥协方差如此大？实际上是出于这两个序列的“波动范围”被无限放大了。为了拿到协方差，我们实际上是把数据压缩到了 0 到 1 之间。
要是数据范围再大一点，比如范围是 0 到 100，那方差变大，协方差也变大。
这说明协方差这个指标实际上和数据的尺度（magnitude）挂钩。这就引出一个难题：我们要不要强行统一尺度？在机器学习中，我们一般喜爱让数据服从标准正态分布，这样均值都是 0，方差都是 1。
这时候协方差就等于标准差。但现实数据往往不是这样，有的数据范围挺小，有的范围挺大。
要是我们强行让所有数据的方差都变成 1，那原来的协方差就会变得贼小。这时候，我们不得不问：协方差到底是不是衡量“相似程度”的指标？显然不是。出于相似程度应当和数据的方差相关，方差越大，相似程度可能越接近 1，反之亦然。但要是我们看到两个序列的协方差是负的，这还能说明啥？这说明两个序列在某种程度上是“反向”的。但难题是，这个“反向”是在啥尺度下定义的？举个例子，假设 $x$ 是 0 到 10 之间的均匀分布，$y$ 是 0 到 10 之间的均匀分布。
这时候它们的协方差是正的还是负的？根据公式，应当是正的。但要是 $x$ 是 0 到 10，$y$ 是 12 到 22，这时候它们的协方差就是负的。
这说明啥？说明要是两个数据的中心位置不同，协方差就会被拉向负值。这就再次印证了协方差的定义：它只是计算的是两个序列在“均值”处的偏离程度相乘。
要是两个序列的均值位置不同，那么它们的协方差自然就是负的。
这彻底不一定代表两个序列本身是“反向”运动，而是代表它们的“起点”没有重合。故此，回到最初的难题：协方差公式是不是在计算“相似程度”？显然不是。它计算的是两个序列在特定基准点（均值）上的“同向偏差”的乘积。在“从 0 启动”的假设下，这个偏差的乘积直接等于两个序列的方差乘积。让我们换个角度想。
要是我们有两个向量 $x$ 和 $y$，它们的均值都是 0。我们计算 $Cov(x, y)$ 的值。
要是 $Cov(x, y) = 0.5$，这说明啥？说明 $x$ 和 $y$ 的数值变化方向是一致的。但要是 $x$ 和 $y$ 的数值大小差异挺大，比如 $x$ 是 0 到 100，$y$ 是 0 到 50，这时候算出来的协方差会是多少？按照公式，$sum_{i=1}^n x_i y_i$。出于 $y$ 的最大值是 50，而 $x$ 的最大值是 100，故此 $x_i y_i$ 的最大值就是 $100 times 50 = 5000$。
这说明要是两个序列的“放大倍数”不一致，协方差就会被放大。这就解释了为啥我们在做 PCA（主成分分析）的时候，时常会见过村山一号。出于 PCA 就是试图把数据压缩到最少的维度，与此同时保留最大方差。
要是原始数据的方差挺大，经过 PCA 之后，主成分的方差也会挺大。
这说明 PCA 本质上是把数据先标准化，再计算协方差。
要是标准化之后，数据的方差变小，那么主成分也会变小。故此，协方差这个公式实际上挺“土”的。它只在乎两个序列在 0 轴附近的相对大小，不管这个序列本身有多大。它不关心数据的物理意义，也不关心数据是否服从正态分布。它就是一个纯粹的数学操作，把两个序列在 0 处的“拍子”给敲在一起。再举个具体的例子。假设有一组数据，标签是 0 和 1。
第一个序列的方差是 0.25，第二个序列的方差是 0.5。
要是这两个序列的均值都是 0，那么它们的协方差就是 $0.25 times 0.5 = 0.125$。
这时候，要是我们要给它们加上一个偏移量，比如移那会儿 10 个单位。
那么新的均值就是 10，新的方差还是 0.25 和 0.5。
这时候协方差还是 $0.125$。
这说明在“从 0 启动”的假设下，移那会儿多少单位，协方差不会变。但要是移那会儿 20 个单位呢？均值变成 20，方差还是 0.25 和 0.5。
这时候协方差还是 $0.125$。
这说明协方差这个指标，对数据的平移彻底不敏感。它只关心相对位置。这就确认了，协方差之故此在“从 0 启动”的假设下，会等于方差相乘，是出于平移操作不会转变距离。但一旦打破了这个假设，比如数据本身有偏移，要么数据本身就不服从 0 均值分布，那么协方差就会受到数据的“形态”影响。这时候，我们不得不重新审视协方差的物理意义。协方差是不是在衡量“相似性”？要是 $x$ 和 $y$ 都是服从标准正态分布，那么 $Cov(x, y) = 0$。
这说明标准正态分布的两个变量是独立的，不相关。
这仿佛和直觉有点冲突？直觉上，两个随机变量应当总有点关联吧？不一定。就像抛硬币，正面和反面，它们的协方差是 0。但这不代表它们没有“相似性”。它们的“相似性”体目前别的地方，要么体目前其他维度上。但在二维平面上，要是两个序列只有这两个维度，且服从标准正态分布，那么它们确实是独立的。故此，协方差的数值大小，实际上反映的是两个序列的“相似程度”与否。
要是协方差挺大，说明两个序列在均值附近同向起伏，相似度高。
要是协方差挺小（接近 0），说明两个序列在均值附近没有同向起伏，可能是独立，也可能是反向。这就引出了协方差矩阵的有趣之处。对于多变量数据，协方差矩阵能够描述所有变量之间的相互关系。
要是某个变量的协方差矩阵是 0，说明它和其他变量不相关。但这并不代表它和其他变量彻底无涉，只是在这个特定的统计意义上，没有线性相关。最终总结一下，协方差的公式 $sum x_i y_i$ 在“从 0 启动”的假设下，等于两个序列的方差乘积。
这说明在标准正态分布下，两个变量的协方差直接反映了它们方差的大小。
要是数据尺度不同，协方差就会失真。
这就是为啥在做数据分析时，我们如此喜爱先做标准化，再做 PCA 的缘由。出于要是不做标准化，协方差这个指标就丧失了公平性。它可能出于某个序列的“规模”大而虚高，要么出于某个序列的“规模”小而虚低。
这时候，协方差就变成了一个随机的噪音，而不是一个稳定的统计特征。
故此，当我们看到协方差是正的，我们才放心地认定这两个变量是“同向”的；当我们看到协方差是负的，我们才判定它们是“反向”的。但这一切的基础，都是建立在“从 0 启动”这个数学假设之上的。一旦这个假设被打破，协方差就不再是衡量相似程度的可靠工具了。这就解释了为啥在机器学习中，我们一般会对数据进行标准化处理。出于标准化之后，所有的序列都变成了“从 0 启动”的状态，这时候协方差就等于方差，进而等于标准差。
这样，协方差这个指标才真正回到了它作为“相似程度”指标的本来面目。之前的那些畸形的数值，都是数学上为了严谨而存有的，但在应用层面，它们往往是噪音。故此，回到最初的难题：协方差计算公式推导并没有算出两个序列本身的“相似程度”，而是算出了两个序列在“均值”处的“同向偏差”的乘积。在“从 0 启动”的假设下，这个偏差的乘积直接等于方差相乘。
这说明在标准正态分布下，协方差的大小反映了方差的大小。要是我们要判断两个序列是否确实相关，不能只看协方差。我们需求看它们的相关系数。相关系数的公式是 $rho_{xy} = frac{Cov(x, y)}{sigma_x sigma_y}$。
这个公式把协方差除以了两个序列的“标准差”。
这时候，相关系数的值就在 -1 到 1 之间了。要是 $rho_{xy} = 1$，说明两个序列彻底同向。
要是 $rho_{xy} = 0$，说明两个序列不相关。
要是 $rho_{xy} = -1$，说明两个序列彻底反向。
这时候，相关系数就剥离了数据尺度的影响，变成了一个纯粹的统计量。故此，协方差的公式推导，实际上只是为了展示在“从 0 启动”的假设下，两个序列的方差是如何相乘的。在应用时，我们一般喜爱用相关系数来衡量“相似程度”，出于相关系数不受数据尺度影响。但协方差本身，是一个更底层、更直接的数学操作，它把两个序列的“拍子”给敲在一起。最终，我们再来回顾一下协方差的公式。$sigma_{xy} = sum_{i=1}^n (x_i - mu)(y_i - mu)$。
这个公式里的每一项 $(x_i - mu)$ 都是 $x$ 和 $mu$ 的差值。
要是 $mu = 0$，那么每一项就是 $x_i$。
要是 $mu$ 不等于 0，那么每一项就是 $x_i - mu$。
这说明协方差对数据的平移是不敏感的。它只关心相对位置。这说明啥？说明协方差这个指标，本质上是衡量两个序列在“均值”处的“同向偏差”的乘积。
要是两个序列的均值相同，那么它们的协方差就是方差相乘的倍数。
要是两个序列的均值不同，那么它们的协方差就是负数。这就解释了为啥在机器学习中，我们往往希望数据的均值都是 0。出于这样协方差就是方差的直接体现，数据更稳定。
要是数据的均值不是 0，那么协方差就会受到均值偏移的影响，害得结局不稳定。故此，协方差计算公式推导，实际上只是为了展示在“从 0 启动”的假设下，两个序列的方差是如何相乘的。在应用时，我们一般喜爱用相关系数来衡量“相似程度”，出于相关系数不受数据尺度影响。但协方差本身，是一个更底层、更直接的数学操作，它把两个序列的“拍子”给敲在一起。这说明啥？说明协方差这个指标，本质上是衡量两个序列在“均值”处的“同向偏差”的乘积。
要是两个序列的均值相同，那么它们的协方差就是方差相乘的倍数。
要是两个序列的均值不同，那么它们的协方差就是负数。这就解释了为啥在机器学习中，我们往往希望数据的均值都是 0。出于这样协方差就是方差的直接体现，数据更稳定。
要是数据的均值不是 0，那么协方差就会受到均值偏移的影响，害得结局不稳定。总结来说，协方差计算的核心逻辑在于将两个序列的数值相乘，并减去一个基准值 $mu$。当 $mu=0$ 时，这个相乘过程直接害得了方差相乘的结局。而当 $mu neq 0$ 时，出于数据的平移，协方差会表现出方向性，即负值。
这彻底取决于两个序列的均值位置。
故此，协方差本身并不直接衡量“相似程度”，而是衡量两个序列在均值处的“同向偏差”强度。
只有经过相关系数运算后，这个偏差才能被标准化，真正反映两个变量之间的线性关联程度。
这就是协方差公式背后最本质的数学逻辑：它在“从 0 启动”的假设下，把两个序列的“拍子”给敲在一起，最终拍板了它们是否同向。

好文推荐：：

煤气灶点火器枪怎么用-煤气灶点火器使用指南

初中数学常用公式大全-初中数学常用公式汇总

协方差cov计算公式推导-协方差公式推导

通风换气量计算公式-通风换气量计算公式

解一元二次方程公式法-一元二次方程公式法

比例计算方法及公式-比例计算方法公式

多重指数导数公式大全-多重指数导数公式全

经验熵公式-经验熵公式改写