向量公式汇总实际上说白了,就是一场关于“空间”和“关系”的数学大杂烩,别整那些教科书式的定义,咱们直接干到能闭着眼用为止。 起初得把张量记清楚。咱们在三维空间里搞几何变换,用的就是 3 阶张量,也就是加一个上标 3。
这个玩意儿就像个万能钥匙,不管你是旋转一个物体,还是平移一段距离,只要用对阶数,代码跑得通,逻辑也顺。 比如你要把一个向量从世界坐标系转到设备坐标系,光靠三个数绝对够呛。
这时候就得用到 3 阶张量公式了:$T = R cdot P$。左边 $R$ 是旋转矩阵,$P$ 是平移量。
这个公式实际上就写了两个动作:先转方向,再挪位置。你不用非得写成矩阵乘法 $R times P$ 这种花里胡哨的,换成点乘 $R.P. = R cdot P$ 就行,现代计算机不管如何写,结局都一样。 再看个更实用的场景,比如游戏里的粒子系统。你当作粒子只是一个个小点?错,每个粒子实际上是个小盒子。
这时候你就得搞 4 维张量,出于盒子有长宽高,一共四个维度。你把粒子的中心点算出来,然后乘以它的宽高,这样往上一个 3 阶张量矩阵,就能瞬间算出整个盒子的对角线长度,顺便顺便算出体积,这比硬套公式快多了。 还有啊,咱们在搞高精度物理模拟,比如航天器的姿态管住。
这时候万向节死锁难题就来了。你没法用传统的余弦公式去解,出于角度绕忒复杂了。
这时候就得引入四元数。四元数就是个老大难,它把旋转变成了三个数值,去掉了虚数单位,结局就是更智慧、更不好办该死。写代码的时候,你大约率还是会用 3 阶张量去操作它,出于你习惯了这种格式,不用像矩阵乘法那样写 $q_1 cdot q_2$,直接写 $q_1 times q_2$ 就行,别看看起来像乘法,实际就是四元数相乘。 说到向量本身,你可能猜不到它的价值有多庞大。在机器学习里,向量是神经网络的血液。你不用管它具体叫啥,更不用管它是不是单位向量,只要用对了运算规则,就能让模型学会识别猫、狗要么判断天气。
比如做回归分析,你给一堆输入数据,算出对应的输出向量,这过程叫矩阵乘。而做分类任务,就是算出一个概率向量,然后看哪个数字最大,就是你的模型“想”说的答案。 再讲讲那些看起来像乱码的公式,实际上都是内功。
比如梯度下降法。你当作它是随机找方向?大错特错,它是沿着负梯度方向跳。
每次迭代,你算出损失函数的变化率,然后往反方向走一步。
这里的梯度实际上就是一条线,向量表示它的斜率。你不用去推导啥学习率如何调,直接设个参数,让每一步都往目标点靠近,直到离够近为止。 还有张量积,这个对搞建模的人来说是命根子。三维空间里,两个向量叉乘拿到一个向量,而两个向量点乘拿到一个数,这就是最根本的两种运算。
这俩一搞出来,赶明儿你管这玩意儿叫向量、叫张量、叫梯度、叫雅可比行列式,全不用怕了。
只要记住:点乘得数,叉乘得向量,就是对的。 在数据分析里,张量收敛得挺快。
本来当作数据量大了算法就慢,结局发现只要用对了结构,哪怕有两千万行数据,也能秒出结论。
这时候你不用遍历每一行,直接拿张量做卷积、做分块,效率提升往往是个数量级。
比如做图像识别,你是把一帧图片切成一个个小块,然后一个个喂给模型。
这些小块实际上就是张量,你不用一个个处理,整块儿批量跑,能跑出几倍就连几十倍的加速比。 语言模型也是靠这个进食的。Transformer 架构的核心就是自注意力机制,它本质上就是一个复杂的张量运算。你把一句句词当成向量,把这些向量加起来,再跟其他向量交互,最终算出一个得分。
这个得分就是注意力权重,它告诉你这句话跟哪句话关系最近。你不需求去理解“注意力”这个词,只要知道它是个向量,用点乘和加法,就能搞出效果。 最终还得提个,欧几里得距离。
这公式别看老,但道理没变。两点之间直线最短,向量就是从起点到终点的位移。算出一两个距离,就能知道两个模型要么两个向量有多远。在聚类算法里,比如 K-Means,就是不断选中心点,算出它们到所有样本的距离,然后重新安排位置,直到不再动为止。
这时候用的就是欧氏距离公式,好办粗暴,直接下结论。 总而言之,向量公式汇总不是让你背一堆死记硬背的公式,而是让你有个底,知道在啥情况下该用啥工具,如何起手,如何收尾。别纠结符号长啥样,只要理解它代表的物理意义——旋转、平移、缩放、距离、概率——你就掌握了核心。把这些当成习惯,赶明儿写代码要么做模型,大局部时候你不需求去求导了,直接套公式,事儿就解决了。