导航
当前位置:首页 > 公式大全

协方差cov计算公式推导-协方差公式推导

2026-07-04 13:12:05 作者 :佚名 围观 : 2次

实际上开头那个对向量的叉积定义有点绕,咱直接看个更狠的:协方差就是衡量两个人“长得不一样”还是“长得忒像”。在统计学里,我们一般默认数据都是从 0 启动的,也就是均值 $mu = 0$,这就像把所有数字都平移到了坐标原点。
这时候协方差的公式就变得特别简洁,就连有点像个乘法公式:$sigma_{xy} = sum_{i=1}^n (x_i - mu)(y_i - mu) = sum x_i y_i$。 这就意味着,要是你给正态分布的数据打了个标签,比如标签是 0 和 1,那么它们的平均值就是 0.5,方差再算一遍也是 0.25。
这时候协方差就简化成了 $sum_{i=1}^n x_i y_i$。
这个公式背后的直觉实际上挺怪诞,它把两个序列的“波动”给蹭蹭往来了。
要是两个序列都是正态分布,那它们的协方差本质上就是它们的标准差的乘积。 咱们拿个具体的例子来拆解一下。假设有一堆数据,标签分别是 0 和 1,这个分布对应的标准差是 0.25。再给你一堆新的数据,标签也是 0 和 1,但这堆数据的标准差变成了 0.5。
这时候,你俩的协方差是多少呢?按照公式算,就是 $0.25 times 0.5 = 0.125$。
这个结局实际上挺怪的,出于它仿佛把两个序列的“相似程度”给乘起来了。 等一下,这个理解是不是错了?出于协方差这个公式本身有个前提,就是数据是从 0 启动的。
要是你拿一组全是正数的数据,比如 0 和 1,算出来协方差是 0.125;但你拿一组全是负数的数据,比如 -1 和 0,算出来却是 -0.125。
这说明啥?这说明在“从 0 启动”这个假设下,协方差的方向性被抹平了。它只关心两个序列是否同向起伏,不管这个起伏是正的好还是负的坏。 这就好比两个人跑步,要是两人步幅大小差不多,步伐方向一致,那协方差就是正的,说明两人一起快;要是两人步幅大小不一样,但方向反之,那就是负的。但这里有个陷阱,要是两人都特别慢,要么特别快,只要他们方向反之,协方差就会是负的。 咱们再回到那个 0 和 1 的例子。假设第一个序列是 $x = [0, 1]$,第二个序列是 $y = [0, 1]$。算一下协方差,就是 $(0-0.5)(0-0.5) + (1-0.5)(1-0.5) = 0.25 + 0.25 = 0.5$。
这时候协方差是 0.5。而这两个序列的标准差乘积是 $0.25 times 0.25 = 0.0625$。
你看,如何差了 8 倍?这是出于在“从 0 启动”的假设下,方差实际上是 $0.0625$,而协方差是 $0.5$,这说明协方差起码是方差的 8 倍。 这就让人有点困惑,为啥协方差如此大?实际上是出于这两个序列的“波动范围”被无限放大了。为了拿到协方差,我们实际上是把数据压缩到了 0 到 1 之间。
要是数据范围再大一点,比如范围是 0 到 100,那方差变大,协方差也变大。
这说明协方差这个指标实际上和数据的尺度(magnitude)挂钩。 这就引出一个难题:我们要不要强行统一尺度?在机器学习中,我们一般喜爱让数据服从标准正态分布,这样均值都是 0,方差都是 1。
这时候协方差就等于标准差。但现实数据往往不是这样,有的数据范围挺小,有的范围挺大。
要是我们强行让所有数据的方差都变成 1,那原来的协方差就会变得贼小。 这时候,我们不得不问:协方差到底是不是衡量“相似程度”的指标?显然不是。出于相似程度应当和数据的方差相关,方差越大,相似程度可能越接近 1,反之亦然。但要是我们看到两个序列的协方差是负的,这还能说明啥?这说明两个序列在某种程度上是“反向”的。但难题是,这个“反向”是在啥尺度下定义的? 举个例子,假设 $x$ 是 0 到 10 之间的均匀分布,$y$ 是 0 到 10 之间的均匀分布。
这时候它们的协方差是正的还是负的?根据公式,应当是正的。但要是 $x$ 是 0 到 10,$y$ 是 12 到 22,这时候它们的协方差就是负的。
这说明啥?说明要是两个数据的中心位置不同,协方差就会被拉向负值。 这就再次印证了协方差的定义:它只是计算的是两个序列在“均值”处的偏离程度相乘。
要是两个序列的均值位置不同,那么它们的协方差自然就是负的。
这彻底不一定代表两个序列本身是“反向”运动,而是代表它们的“起点”没有重合。 故此,回到最初的难题:协方差公式是不是在计算“相似程度”?显然不是。它计算的是两个序列在特定基准点(均值)上的“同向偏差”的乘积。在“从 0 启动”的假设下,这个偏差的乘积直接等于两个序列的方差乘积。 让我们换个角度想。
要是我们有两个向量 $x$ 和 $y$,它们的均值都是 0。我们计算 $Cov(x, y)$ 的值。
要是 $Cov(x, y) = 0.5$,这说明啥?说明 $x$ 和 $y$ 的数值变化方向是一致的。但要是 $x$ 和 $y$ 的数值大小差异挺大,比如 $x$ 是 0 到 100,$y$ 是 0 到 50,这时候算出来的协方差会是多少? 按照公式,$sum_{i=1}^n x_i y_i$。出于 $y$ 的最大值是 50,而 $x$ 的最大值是 100,故此 $x_i y_i$ 的最大值就是 $100 times 50 = 5000$。
这说明要是两个序列的“放大倍数”不一致,协方差就会被放大。 这就解释了为啥我们在做 PCA(主成分分析)的时候,时常会见过村山一号。出于 PCA 就是试图把数据压缩到最少的维度,与此同时保留最大方差。
要是原始数据的方差挺大,经过 PCA 之后,主成分的方差也会挺大。
这说明 PCA 本质上是把数据先标准化,再计算协方差。
要是标准化之后,数据的方差变小,那么主成分也会变小。 故此,协方差这个公式实际上挺“土”的。它只在乎两个序列在 0 轴附近的相对大小,不管这个序列本身有多大。它不关心数据的物理意义,也不关心数据是否服从正态分布。它就是一个纯粹的数学操作,把两个序列在 0 处的“拍子”给敲在一起。 再举个具体的例子。假设有一组数据,标签是 0 和 1。
第一个序列的方差是 0.25,第二个序列的方差是 0.5。
要是这两个序列的均值都是 0,那么它们的协方差就是 $0.25 times 0.5 = 0.125$。
这时候,要是我们要给它们加上一个偏移量,比如移那会儿 10 个单位。
那么新的均值就是 10,新的方差还是 0.25 和 0.5。
这时候协方差还是 $0.125$。
这说明在“从 0 启动”的假设下,移那会儿多少单位,协方差不会变。 但要是移那会儿 20 个单位呢?均值变成 20,方差还是 0.25 和 0.5。
这时候协方差还是 $0.125$。
这说明协方差这个指标,对数据的平移彻底不敏感。它只关心相对位置。 这就确认了,协方差之故此在“从 0 启动”的假设下,会等于方差相乘,是出于平移操作不会转变距离。但一旦打破了这个假设,比如数据本身有偏移,要么数据本身就不服从 0 均值分布,那么协方差就会受到数据的“形态”影响。 这时候,我们不得不重新审视协方差的物理意义。协方差是不是在衡量“相似性”?要是 $x$ 和 $y$ 都是服从标准正态分布,那么 $Cov(x, y) = 0$。
这说明标准正态分布的两个变量是独立的,不相关。
这仿佛和直觉有点冲突?直觉上,两个随机变量应当总有点关联吧? 不一定。就像抛硬币,正面和反面,它们的协方差是 0。但这不代表它们没有“相似性”。它们的“相似性”体目前别的地方,要么体目前其他维度上。但在二维平面上,要是两个序列只有这两个维度,且服从标准正态分布,那么它们确实是独立的。 故此,协方差的数值大小,实际上反映的是两个序列的“相似程度”与否。
要是协方差挺大,说明两个序列在均值附近同向起伏,相似度高。
要是协方差挺小(接近 0),说明两个序列在均值附近没有同向起伏,可能是独立,也可能是反向。 这就引出了协方差矩阵的有趣之处。对于多变量数据,协方差矩阵能够描述所有变量之间的相互关系。
要是某个变量的协方差矩阵是 0,说明它和其他变量不相关。但这并不代表它和其他变量彻底无涉,只是在这个特定的统计意义上,没有线性相关。 最终总结一下,协方差的公式 $sum x_i y_i$ 在“从 0 启动”的假设下,等于两个序列的方差乘积。
这说明在标准正态分布下,两个变量的协方差直接反映了它们方差的大小。
要是数据尺度不同,协方差就会失真。
这就是为啥在做数据分析时,我们如此喜爱先做标准化,再做 PCA 的缘由。 出于要是不做标准化,协方差这个指标就丧失了公平性。它可能出于某个序列的“规模”大而虚高,要么出于某个序列的“规模”小而虚低。
这时候,协方差就变成了一个随机的噪音,而不是一个稳定的统计特征。
故此,当我们看到协方差是正的,我们才放心地认定这两个变量是“同向”的;当我们看到协方差是负的,我们才判定它们是“反向”的。但这一切的基础,都是建立在“从 0 启动”这个数学假设之上的。一旦这个假设被打破,协方差就不再是衡量相似程度的可靠工具了。 这就解释了为啥在机器学习中,我们一般会对数据进行标准化处理。出于标准化之后,所有的序列都变成了“从 0 启动”的状态,这时候协方差就等于方差,进而等于标准差。
这样,协方差这个指标才真正回到了它作为“相似程度”指标的本来面目。之前的那些畸形的数值,都是数学上为了严谨而存有的,但在应用层面,它们往往是噪音。 故此,回到最初的难题:协方差计算公式推导并没有算出两个序列本身的“相似程度”,而是算出了两个序列在“均值”处的“同向偏差”的乘积。在“从 0 启动”的假设下,这个偏差的乘积直接等于方差相乘。
这说明在标准正态分布下,协方差的大小反映了方差的大小。 要是我们要判断两个序列是否确实相关,不能只看协方差。我们需求看它们的相关系数。相关系数的公式是 $rho_{xy} = frac{Cov(x, y)}{sigma_x sigma_y}$。
这个公式把协方差除以了两个序列的“标准差”。
这时候,相关系数的值就在 -1 到 1 之间了。 要是 $rho_{xy} = 1$,说明两个序列彻底同向。
要是 $rho_{xy} = 0$,说明两个序列不相关。
要是 $rho_{xy} = -1$,说明两个序列彻底反向。
这时候,相关系数就剥离了数据尺度的影响,变成了一个纯粹的统计量。 故此,协方差的公式推导,实际上只是为了展示在“从 0 启动”的假设下,两个序列的方差是如何相乘的。在应用时,我们一般喜爱用相关系数来衡量“相似程度”,出于相关系数不受数据尺度影响。但协方差本身,是一个更底层、更直接的数学操作,它把两个序列的“拍子”给敲在一起。 最终,我们再来回顾一下协方差的公式。$sigma_{xy} = sum_{i=1}^n (x_i - mu)(y_i - mu)$。
这个公式里的每一项 $(x_i - mu)$ 都是 $x$ 和 $mu$ 的差值。
要是 $mu = 0$,那么每一项就是 $x_i$。
要是 $mu$ 不等于 0,那么每一项就是 $x_i - mu$。
这说明协方差对数据的平移是不敏感的。它只关心相对位置。 这说明啥?说明协方差这个指标,本质上是衡量两个序列在“均值”处的“同向偏差”的乘积。
要是两个序列的均值相同,那么它们的协方差就是方差相乘的倍数。
要是两个序列的均值不同,那么它们的协方差就是负数。 这就解释了为啥在机器学习中,我们往往希望数据的均值都是 0。出于这样协方差就是方差的直接体现,数据更稳定。
要是数据的均值不是 0,那么协方差就会受到均值偏移的影响,害得结局不稳定。 故此,协方差计算公式推导,实际上只是为了展示在“从 0 启动”的假设下,两个序列的方差是如何相乘的。在应用时,我们一般喜爱用相关系数来衡量“相似程度”,出于相关系数不受数据尺度影响。但协方差本身,是一个更底层、更直接的数学操作,它把两个序列的“拍子”给敲在一起。 这说明啥?说明协方差这个指标,本质上是衡量两个序列在“均值”处的“同向偏差”的乘积。
要是两个序列的均值相同,那么它们的协方差就是方差相乘的倍数。
要是两个序列的均值不同,那么它们的协方差就是负数。 这就解释了为啥在机器学习中,我们往往希望数据的均值都是 0。出于这样协方差就是方差的直接体现,数据更稳定。
要是数据的均值不是 0,那么协方差就会受到均值偏移的影响,害得结局不稳定。 总结来说,协方差计算的核心逻辑在于将两个序列的数值相乘,并减去一个基准值 $mu$。当 $mu=0$ 时,这个相乘过程直接害得了方差相乘的结局。而当 $mu neq 0$ 时,出于数据的平移,协方差会表现出方向性,即负值。
这彻底取决于两个序列的均值位置。
故此,协方差本身并不直接衡量“相似程度”,而是衡量两个序列在均值处的“同向偏差”强度。
只有经过相关系数运算后,这个偏差才能被标准化,真正反映两个变量之间的线性关联程度。
这就是协方差公式背后最本质的数学逻辑:它在“从 0 启动”的假设下,把两个序列的“拍子”给敲在一起,最终拍板了它们是否同向。
相关标签:
相关文章
  • 通风换气量计算公式-通风换气量计算公式

    通风换气量计算公式:核心指标与工程应用深度解析 通风换气量计算公式作为通风与空调工程领域的基石,其准确性的直接决定了建筑能耗控制效果、室内空气品质及人员健康安全。长期以来,该公式在各类职业资格考试及

    2026-05-23
  • 解一元二次方程公式法-一元二次方程公式法

    解一元二次方程公式法的权威指引与实战攻略 一元二次方程是初中乃至后续数学学习中最为核心且高频出现的考点之一,其解法是构建代数思维逻辑的基石。长期以来,学生在学习此类题目时往往陷入盲目试算的困境,无法

    2026-05-23
  • 比例计算方法及公式-比例计算方法公式

    比例计算的逻辑与核心公式解析 比例计算方法及公式是职场沟通、财务核算及数据管理中的基石工具,其本质在于寻找两个或多个数值之间的相对关系,从而实现资源的优化配置与效率提升。在职场环境中,无论是分配奖金

    2026-05-23
  • 多重指数导数公式大全-多重指数导数公式全

    多重指数导数公式大全解析与备考攻略 在高等数学的宏大体系中,函数求导是基石,而多重指数函数则是连接初等函数与更高级微分理论的桥梁。多重指数导数公式大全作为学习这一领域不可或缺的权威工具,其重要性不言

    2026-05-23
  • 经验熵公式-经验熵公式改写

    数智破局:经验熵公式的深度解析与应用指南 经验熵公式作为当前区域经济与产业互动的核心模型,已在从业十余年的专业实践中确立其权威地位。它超越了传统线性预测的局限,通过引入动态的熵值机制,精准捕捉了复杂

    2026-05-23