导航
当前位置:首页 > 公式大全

余弦距离的计算公式-余弦距离计算公式

2026-06-13 19:13:58 作者 :佚名 围观 : 2次

余弦距离说白了,就是看两个句子要么两个向量“长得像不像”,核心就是看它们之间那个夹角是如何样的。别光死记硬背公式,想象一下你手里拿了两把尺子,一把指着你目前的方向,一把指着对方的方向,夹角越小,说明你俩越顺眼,余弦值离 1 越近;合得越近,就是夹角接近 90 度,那余弦值就压到 0 了,意思就是互斥,彻底不搭调。 算这个公式时,一般用的是点积除以模长的乘积。点积就是两个向量对应位置相乘再加起来,就像是你和对方在空间里互相“鸠占鹊巢”,重叠的局部越多,点积数值越大。模长呢,就是向量整个长度,算出来之后要开根号,这是为了把尺子缩回去,让长度变成 1,变成单位向量,这样比较公平。最终要把点积除以模长乘以模长,然后开根号,拿到的结局就是那个角度余弦值。
这个数值范围在 -1 到 1 之间,正数代表高度相关,负数代表负相关,0 就是彻底垂直。 举个具体的例子来说明,假设向量 A 是 [1, 0],向量 B 是 [0, 1],那就是两个正交的向量,啥关系都没有,点积是 0,长都是 1,结局就是 0。再比如向量 A 是 [1, 0],向量 B 是 [1, 1],点积是 1,长分别是 1 和 $sqrt{2}$,算出来的余弦值大约是 0.707,说明它们差别不是特别大,有一点重合。
还有像 [1, 1] 和 [1, -1] 这种,点积是 0,结局就是 0,说明它们在垂直方向上互不影响。 在机器学习和信号处理这块儿,余弦距离挺常用的,比如推荐系统里评估两个推荐结局的相似度,要么文本相似度计算。
有时候看到负余弦距离,别慌,那叫负相关,一个涨了另一个跌了,那就说明它们实际上是反着走的,余弦距离公式直接算出来就是负数了。 有时候我们会用余弦距离来代替欧氏距离,特别是在特征之间夹角已经说明难题的时候,算点积更直接。
要是你把余弦距离公式里的分子分母都开根号,那就有个有趣的性质:余弦距离本身也是非负的,并且越大说明两个向量越不像。它还有个特别的地方,就是能捕捉到多维空间的复杂关系。 再看一个例子,比如用户搜索历史里记录了三个词。
第一个向量是 [1, 0, 0],代表用户刚搜了“苹果”;第二个是 [0, 1, 0],代表搜索了“面包”;第三个是 [0, 0, 1],代表搜了“书”。
要是目前用户又搜了“手机”,对应的向量就是 [1, 1, 1]。
这时候算一下这三个新向量之间的余弦距离,能看出用户在认知上是分散的,出于“苹果”、“面包”、“书”和“手机”在用户眼里归于不同维度的概念,勾股定理在这里也能找到对应关系。 有时候余弦距离会涉及到归一化,就是把所有向量都变成单位向量,这样长度就是 1,不用关心原来的数值大小了。归一化之前,要是向量特别长,点积可能会特别大,直接除以模长也就差不多,但归一化之后,分母一辈子是 1,计算过程就干净利落多了。 在自然语言处理领域,文本相似度算得特别讲究。
比如句子“我明天去北京”和“我明天去上海”,它们的向量计算完余弦距离后,自然会接近 0,出于“北京”和“上海”在空间上是分开的,互斥的。
这就意味着它们之间没有重叠信息,余弦距离取值接近 0。 还有一个点,余弦距离和夹角有直接关系。夹角是 0 度,余弦值是 1;夹角 90 度,余弦值是 0;夹角接近 180 度,余弦值接近 -1。余弦距离本质上就是把这个角度余弦值给算出来,转成一种距离的形式。别看叫距离,但它实际上是衡量角度余弦值的,不是衡量空间距离的那种。 在实际应用中,我们可能会用余弦距离来过滤掉那些互斥的项。
比如在一个评分矩阵里,要是两个商品的余弦距离超过某个阈值,说明它们互斥,系统会自动把它们排除,不会推荐给同一个人买。
这种过滤机制做得好,就能优化推荐算法的效率。 有时候我们会看到数学书上把余弦距离写成 $sqrt{2 - 2costheta}$ 这种形式,实际上本质就是勾股定理的变体,把点积和模长代进去化简。先算点积,再算模长乘积,最终开根号,这个逻辑挺清楚。 不过也有人认定余弦距离在某些场景下不如欧式距离直观,比如在特征之间没有明显夹角的时候,余弦距离可能会把一些细微的差别忽略。
这时候欧式距离可能更敏感一点,能捕捉到那些轻微的偏移。但余弦距离的优势在于它不关心绝对数值,只看相对方向,这在小规模数据里特别好用。 有时候我们会用余弦距离来做聚类分析。
比如把一堆数据点放进一个虚拟的空间里,要是它们聚得紧,余弦距离就小;要是散开,余弦距离就大。通过计算所有点对之间的距离,能构建出一个拓扑结构,帮助理解数据之间的整体关系。 在文本检索时,余弦距离能挺好地处理掉那些停用词。
比如对比“学习编程”和“学习算数”,经过预处理去掉“学习”,剩下的“编程”和“算数”余弦距离可能极小,出于这两个词在语义上是不相关的,归于不同维度的概念。
这就保证了检索结局的准性。 还有一些实际案例,比如图像相似度评估。
要是把两张图片的特征向量相减拿到差值向量,然后算余弦距离,就能看出这两张图片在特征空间里有多像。
要是余弦距离挺小,说明它们在特征空间里重叠挺大,挺可能是一模一样的图片;要是余弦距离挺大,说明它们差异挺大,可能被误认定是彻底不同的东西。 有时候我们会遇到边界情况。
要是两个向量简直相等,余弦值就挺接近 1,说明它们高度相似。
要是两个向量简直反之,余弦值接近 -1,说明它们是绝对对立的概念。而 0 这个值,实际上就是正交,彻底垂直,没有任何关联。 余弦距离还有一个益处是计算速度快。点积计算一般比求模要好办,并且向量维度越高,点积计算越快。
这在实时应用场景里挺有意义,比如流媒体服务要么在线问答系统。 总而言之,余弦距离是个挺实用的工具,特别在处理向量空间里的那些方向性数据时。它好办、直接,并且能揭示出数据之间深层的方向关系。
只要理解好它背后的几何意义,就能在工程落地中发挥挺大功能。
相关标签:
相关文章
  • 通风换气量计算公式-通风换气量计算公式

    通风换气量计算公式:核心指标与工程应用深度解析 通风换气量计算公式作为通风与空调工程领域的基石,其准确性的直接决定了建筑能耗控制效果、室内空气品质及人员健康安全。长期以来,该公式在各类职业资格考试及

    2026-05-23
  • 解一元二次方程公式法-一元二次方程公式法

    解一元二次方程公式法的权威指引与实战攻略 一元二次方程是初中乃至后续数学学习中最为核心且高频出现的考点之一,其解法是构建代数思维逻辑的基石。长期以来,学生在学习此类题目时往往陷入盲目试算的困境,无法

    2026-05-23
  • 比例计算方法及公式-比例计算方法公式

    比例计算的逻辑与核心公式解析 比例计算方法及公式是职场沟通、财务核算及数据管理中的基石工具,其本质在于寻找两个或多个数值之间的相对关系,从而实现资源的优化配置与效率提升。在职场环境中,无论是分配奖金

    2026-05-23
  • 多重指数导数公式大全-多重指数导数公式全

    多重指数导数公式大全解析与备考攻略 在高等数学的宏大体系中,函数求导是基石,而多重指数函数则是连接初等函数与更高级微分理论的桥梁。多重指数导数公式大全作为学习这一领域不可或缺的权威工具,其重要性不言

    2026-05-23
  • 经验熵公式-经验熵公式改写

    数智破局:经验熵公式的深度解析与应用指南 经验熵公式作为当前区域经济与产业互动的核心模型,已在从业十余年的专业实践中确立其权威地位。它超越了传统线性预测的局限,通过引入动态的熵值机制,精准捕捉了复杂

    2026-05-23