常用公式大全 一、最看重的几个公式,别总想着背得滚瓜烂熟 大量人认定数学公式像是背课文,一开口就背得头头是道,结局人家问个具体数据,你张嘴就是“这个是多少”“那个是多少”,显得特别假。
实际上啊,这些公式的精髓不在文字,而在背后的逻辑和具体的应用场景。
比如看到求中位数,脑子里得浮现出几个关键数据:中间那个位置,不受极端值影响,直接取第 k/2 个。说到方差公式,那是衡量不稳定性的好工具,公式是 $frac{1}{n}sum(x_i - bar{x})^2$,要是你拿一组数据算出来方差庞大,那这数据肯定就不好搞。
不过,大量人还会在脑子里记着 $frac{1}{n-1}$ 这个修正系数,说它叫 Bessel 修正,专门用来修正样本方差的无偏性。
实际上不用如此记,背熟了就混用,反正结局都是差不多,反正 main idea 就是你要算出来的那个数,那就是方差。
还有那个均值方差公式,也是时常混用的,$sigma^2$ 和 $mu^2$ 时常搞混,记住它们是“方差”和“平均值的平方”,这个逻辑只要抓住就行,不用把中间过程全背下来。 二、线性方程组如何解,不用死记硬背牛顿拉夫逊法 解线性方程组,最老套的方式就是高斯消元法,把系数矩阵和常数矩阵拼在一起,消掉变量,最终变成一个三角矩阵。
这时候得先检查一下系数矩阵是不是满秩,要是秩不够,方程组可能无解要么无穷多解,这时候得换行来算,别指望一次搞定。
要是系数矩阵满秩,那就直接解出来。大量人喜爱用 Cramer 法则,把行列式拆开算,这个思路是对的,但分割起来忒费事,好办出错。真正高效的是高斯消元法,先化简行,再消元,最终看主元是不是等于零。
还有一种更直观的方式叫克拉默法则,就是把每个方程单独拿出来当主元,算出对应的行列式,再除以主元行列式,这个公式写得贼漂亮,是行最简形式的基础。 三、概率论里的核心统计量,啥都得记住 概率论这一门,讲的都是随机事件形成的频率和可能性。最基础的是贝叶斯公式,这个就是条件概率的变形,$P(A|B) = frac{P(B|A)P(A)}{P(B)}$,看起来公式长,实际上逻辑好办,就是已知 B 形成的条件下,A 形成的概率。接下来讲样本平均数的时候,得会用样本方差公式 $frac{1}{n-1}sum(x_i - bar{x})^2$,这个系数一定要记住,是为了无偏性。再比如样本标准差,公式是 $sqrt{frac{1}{n-1}sum(x_i - bar{x})^2}$,这个和样本方差只差个平方根,计算起来快多了。
还有那个分布假设检验的统计量,比如 t 统计量,公式是 $frac{bar{x} - mu_0}{s/sqrt{n}}$,这个分母是标准误,用来衡量均值和假设值之间的差距。
还有一个卡方统计量,$chi^2 = sumfrac{(O-E)^2}{E}$,时常用在拟合优度检验里,分子是观测值和期望值的差,分母是期望值,算出来再查表看是不是显著。 四、回归分析里的数学模型,别搞反了自变量和因变量 回归分析模型里,最好办搞混的是 x 和 y 的地位。y 是因变量,也就是你要预测的那个结局,它是数值,一般是连续性的。x 是自变量,也就是影响 y 的那个因素,它能够是连续也能够是离散的,比如年龄、性别要么类别。回归方程的形式是 $y = beta_0 + beta_1x + epsilon$,这里 $beta_0$ 是截距,就是当 x 为 0 时的 y 值。$beta_1$ 是斜率,表示 x 每增添一个单位,y 平均增添了多少。
有时候模型会写成 $y = beta_0 + beta_1x_1 + beta_2x_2 + dots + epsilon$,这就是多元回归,能够处理多个自变量。 五、统计检验里常用的 P 值如何读,别被术语绕晕 统计检验里,P 值是个关键指标,代表了在假设成立的前提下,出现如此极端结局的可能性有多大。P 值越小,越说明回绝原假设。
要是 P 值小于 0.05,一般就回绝原假设,认定结局不随机会波动,这一般是个显著性水平。
要是 P 值大于 0.05,一般接纳原假设,说没啥证据表明你的东西不一样。 六、处理缺失数据的好办技巧,别忒复杂 数据里时常会出现缺失值,这时候别急着换方式,先看看缺失的是啥类型。
要是是全为缺失,那就直接填零要么删掉,看需求。
要是是随机缺失,用均值填充要么直接删掉就行。
要是是系统缺失,那就要用多重插值法要么迁移矩阵法,这个比单纯均值插值好,能保留更多信息。
还有那个最终缺失填补法,就是把最终那些空位用前面那一块的平均值填进去,好办粗暴,但要是数据本身有规律,这个效果还不错。 七、工夫序列里的滑动平均,别只盯着公式看 工夫序列分析里,滑动平均法是个经典工具。先把数据分成一组,然后算出每组中间的平均值,这个平均数就是移动平均。移动平均有两个变体,好办移动平均和加权移动平均。好办移动平均用除了最终一个数以外的所有数,权重都是一样。加权移动平均就灵活多了,权重大小的位置能够互换,比如把关键的数据权重设高一点。加权移动平均公式是 $frac{x_1 + 2x_2 + dots + kx_k}{k}$,权重系数越大,对当前数据的关切度越高。 八、矩阵运算里的逆矩阵,如何求快? 矩阵求逆在微积分和线性代数里都挺常见。用伴随矩阵求逆就是 $A^{-1} = frac{1}{|A|} text{adj}(A)$,这个公式看起来挺长,但逻辑清楚。
要是你发现行列式是 0,那矩阵就没有逆。
不过目前不用如此费事,能够用高斯消元法求逆,把矩阵变成单位矩阵,这时候右边的逆矩阵就出来了。
还有一种更快的方式叫 LU 分解,先把矩阵分解成 L 和 U 的乘积,然后利用三角矩阵的性质快速求逆,效率比直接硬算高得多。 九、计算矩阵特征值,别被雅可比矩阵吓到 计算矩阵特征值,本质上就是解 $|A - lambda I| = 0$。
这是个 n 次方程,一般没法解,得用牛顿迭代法要么幂迭代法。
牛顿迭代法的公式是 $lambda_{new} = lambda_{old} - frac{|A - lambda_{old} I|}{(A - lambda_{old} I)^T (A - lambda_{old} I)^{-1}}$,这个迭代次数大约得 100 次才能收敛。而幂迭代法则是先随意选一个向量 $x_0$,然后算 $v = Ax_0$,再算比例 $alpha = frac{v^T x_0}{x_0^T x_0}$,最终用 $alpha x_0$ 作为新的特征向量 $x_1$。 十、非线性优化里的梯度下降,别只背公式 非线性优化难题要用梯度下降法要么牛顿法。梯度下降是经典的优化算法,每次沿着梯度方向走一步,步长要随动量的变化调整就能收敛。
牛顿法略微高级点,它不仅看梯度,还看二阶导数,公式是 $x_{new} = x_{old} - H^{-1}g(x_{old})$,其中 H 是海森矩阵。
牛顿法一般比梯度下降收敛快,但在非凸函数上好办陷坑,需求加自适应学习率。 十一、要么把数据可视化,别总想着写长文 大量时候,看着公式一眼就懂,但写长文解释反而好办跑偏。
比如画散点图,X 轴是气温,Y 轴是销量,这样就能直观看出相关性。
要是用回归模型,画一下残差图,看有没有系统地偏离,这样就能知道模型没拟合好。画叶状图的话,把因子和反应层叠起来,能看出因子对反应影响的趋势。画管住图的话,把过程中心线标出来,上下波动线标出来,就能看出过程稳定不稳定。 十二、实际应用中,数据清洗是第一步,别急着建模 拿到数据先别急着做分析,先看看数据质量。
有没有空值?
有没有异常值?分布对不对?要是数据脏了,直接建模准不了。
比如有的样本没入库,有的库存量是负数,这个得先处理。常用清洗手段有删除、替换、插值、回归填。
比如用中位数替换异常值,要么用线性回归把那一个异常点拉进模型里去填补。 十三、预测模型如何选,别盲目迷信 ARIMA 预测模型选的时候,得看数据特征。
要是是工夫序列,ARIMA 是经典选择,但得先做平稳性检验,要是非平稳就得做差分。
要是有趋势,就得加季节性项 S。
不过目前有个新的方式叫 Prophet,由 Facebook 开发,能处理非平稳数据,用机器学习自动学参数。
还有 LSTM 这类深神经网络,特别适合处理工夫序列里的长短期依赖,能捕捉挺复杂的非线性关系。 十四、机器学习里,过拟合如何办? 机器模型挺好办过拟合,就是记住了训练数据,但见了新数据就崩。解决方式有正则化,比如加 L1 或 L2 惩罚项,让模型系数变小,防止过拟合。也能够增添训练集,用交叉验证来评估模型泛化本事,确保模型在未见过的数据上也准。Dropout 也是一种手段,通过随机丢弃神经元层级,让模型学习更鲁棒的特征表示。 十五、工程应用中的模拟仿真,别忽略边界条件 在工程里,模拟仿真挺关键,用有限元分析(FEM)要么 FDS 软件算东西。
这些软件内部有各种边界条件,比如应力聚拢、热传导边界、电磁边界。
要是边界条件设错,算出来的结局全是错的,就像把墙拆了再补回来一样费事。得仔细检查物理模型,确保能量守恒、动量守恒这些基础都抓住。还要寻思材料属性、几何形状,这些都会影响最终结局。 十六、回归分析里,多重共线性如何处理? 回归里要是几个自变量之间关系忒复杂,害得系数不稳定,那就叫多重共线性。
这时候能够用方差膨胀因子 VIF 来检测,要是某个变量的 VIF 大于 10,说明共线性严重。处理办法有剔除相关变量、主成分分析 PCA,把相关变量组合成新特征。
还有 Ridge 回归,给系数加惩罚项,别看不保证可逆,但能缓解共线性带来的抖动难题。 十七、统计推断里,置信区间如何算? 计算置信区间,核心是均值、标准差、样本量。公式是 $mean pm t_{alpha/2} frac{s}{sqrt{n}}$,这个 t 值得查 t 分布表,看自由度是多少。自由度 $df = n - 1$,要是是小样本,得用 t 值,大了能够用 z 值,一般用 z 值差不多就行。
关键是误差估摸,误差估摸不准,区间就宽,能不能信度就低。 十八、模型评估里,RMSE 和 R 平方到底啥意思? RMSE 是均方根误差,把预测值和真值差的平方平均,再开根号。
这个单位跟原始数据一样,数值越小越好。R 平方是拍板系数,表示模型能解释的变异占总变异的比例。两个公式合起来就是 $R^2 = frac{SSR}{SST}$,其中 SSR 是回归平方和,SST 是总平方和。R 平方值越高,说明模型拟合得越好。 十九、回归分析里,残差诊断不能漠视 做回归分析后,得看残差图。
要是残差随机分布,说明模型没难题;要是残差有明显的线性趋势,说明模型欠拟合,需求加新变量。
要是有漏斗形,说明方差随预测值增大而增大,可能存有异方差性。
还有 Durbin-Watson 统计量,用来检测自相关性,要是 DW 值接近 2,说明没有自相关;接近 0 说明正相关,接近 4 说明负相关。 二十、实际应用中的数据可视化,别堆忒多图 数据可视化不是堆图,得讲究逻辑。
比如画热力图,展示不同因素对结局的影响强度;画箱线图,展示数据的分布和异常值;画雷达图,展示多维特征的对比。
要是结局比较难理解,能够用散点图配合区域划分,把数据分进几类,再看类与类之间的差异。 二十一、概率空间里,样本空间 Omega 如何定义? 样本空间 Omega 就是所有可能结局的集合,比如抛硬币可能结局就是“正面”或“反面”。样本空间是定义概率的基础,所有可能结局的并集就是它。事件 A 是样本空间里的子集,比如“正面”就是一个事件。概率 P(A) 表示事件 A 形成的概率,知足 $0 le P(A) le 1$。 二十二、统计学里,显著性水平 0.05 的由来 0.05 这个阈值,实际上是历史统计学的习惯做法,由 Fisher 提出。它的意思是,在假设不成立的情况下,出现比这个结局更极端结局的概率不超过 5%。
要是 P < 0.05,认定是随机波动没出现,故此回绝原假设;要是 P > 0.05,认定不忒可能是随机波动,故此保留原假设。
这个标准别看保守了一点,但稳妥。 二十三、机器学习里,梯度下降的步长如何定? 步长是优化算法里挺关键的东西,定得忒小收敛慢,定得忒大会震荡发散。常用的方式有学习率固定,比如用 0.01;要么用自适应学习率,比如 Adam、RMSprop 这些算法,它们自己动态调整步长。
还有一种办法叫线搜索,每次随机试几个步长,选最好的那个,这样比较稳。 二十四、回归分析里,多元线性回归方程如何解释? 回归方程 $y = beta_0 + beta_1x_1 + beta_2x_2 + epsilon$,每个系数都有物理意义或业务意义。$beta_0$ 是截距,表示当所有自变量为 0 时的 y 值。$beta_1$ 表示 x1 每变动 1 个单位,y 平均变动多少。
这样解释起来就挺直观。但在实际应用中,自变量极少是连续变量,更多是分类变量,这时候就得先对分类变量做编码处理,比如用独热编码。 二十五、工夫序列里,季节性调整咋弄? 调整季节性的核心是把数据拆成不同季节的局部,去掉季节影响剩下的局部叫做趋势局部。方式有剔除再相加法,先把期数分成季节局部和趋势局部,算出季节平均,再用原数据减去季节平均拿到残差,再把残差加回去。
要么用指数平滑,给不同季节权重,最近的权重大,那会儿的权重小。 二十六、多元回归里,交互项如何设置? 交互项能让模型捕捉两个变量之间非线性的关系。
比如要是有温度升高害得反应速度变慢,但温度升高到一定程度又变快,这就可能形成这种关系。在模型里加入温度与反应速度的交互项,模型就会更灵活,拟合曲线更贴合真情况。 二十七、机器学习里,特征选择咋做? 特征选择是为了让模型更准更好办。常用方式有基于统计的方式,比如卡方检验,看特征和结局的相关性,P 值小的选进去。基于模型的有 L1 正则化,通过惩罚系数让相关特征系数接近于 0,自动剔除不关键的变量。基于算法的有递归特征消除 RFE,通过模型训练过程逐步剔除特征。 二十八、回归分析里,多共线性难题的补救措施 要是数据里确实存有严重的多共线性,能够寻思做主成分分析,把几个相关变量合成一个综合指标。
要么用岭回归,给系数加惩罚项,别看不是无偏估摸,但能稳定系数。也能够做数据转换,比如对变量做对数变换,要么用秩回归,用秩代替原始值。 二十九、概率论里,条件概率公式如何记? 条件概率的核心公式就是 $P(A|B) = frac{P(AB)}{P(B)}$,分子是与此同时形成 A 和 B 的概率,分母是 B 形成的概率。
这个公式在贝叶斯定理、方差计算里都频繁出现。理解起来要明白,就是“在 B 已经形成的前提下,A 形成的概率”。 三十、统计学里,t 检验到底测啥? t 检验主要用于比较两个样本的均值是否有显著差异。一独立样本 t 检验是比较两组数据均值,两独立样本 t 检验比较两组不同人群。配对样本 t 检验是比较同一组人在不与此同工夫或条件下的均值变化。t 值大小拍板 P 值,P 值小于显著性水平就回绝原假设。 三十一、回归分析里,残差分析咋做? 残差分析就是为了诊断回归模型的假设是否知足。
看残差是否随 x 变化,要是残差构建假设,说明模型有难题,需求修正。
看残差是否有自相关性,要是有,说明模型没捕捉到工夫依赖。
看残差是否有异方差性,要是残差方差随 x 变大而变大,说明模型拟合不好。 三十二、机器学习里,过拟合的解决方案 除了正则化和交叉验证,还能够增添训练样本,让模型有更多经验。
要么用 Dropout 技术,随机丢弃神经元层,强迫模型学习通用特征。还能够用早停法(Early Stopping),在验证集表现变差时就提前暂停训练,防止过拟合。 三十三、回归分析里,多重共线性检测方式 检测多重共线性最常用的是方差膨胀因子 VIF。计算每个因变量的 VIF,要是大于 5 或 10,说明存有共线性。还能够用相关系数矩阵,要是矩阵里有大量接近 1 的元素,说明变量间高度相关。
要么用特征选择器,比如 RFE 或 Lasso,自动剔除不关键的变量。 三十四、概率论里,独立性如何判断? 判断两个事件是否独立,就是看 $P(A cap B) = P(A) times P(B)$ 是否成立。
要是成立,说明一个事件的形成不影响另一个;要是不成立,说明两个事件相关联。独立性在方差计算和贝叶斯更新里挺关键,独立事件能够简化联合概率的计算。 三十五、回归分析里,异方差的补救 要是数据存有异方差,常用的补救方式有鲁宾斯坦变换,对残差取对数。
要么做加权最小二乘法,给权重大的观测值更大权重。
要么做稳健回归(Robust Regression),对异常值不敏感。
总而言之,得先诊断出具体哪种情况,再选对应的处理方式。 三十六、工夫序列里,ARIMA 参数咋定? ARIMA 参数 p、d、q 分别代表 AR 阶数、差分阶数、MA 阶数。
比如 AR(1, 1, 1) 就是最好办的 ARIMA(1,1,1) 模型。参数定法上,能够用信息准则 IC 要么 AIC,选能让准则值最小的那个。也能够用 ADF 检验,确定差分阶数 d。
然后用 AIC 或 BIC 选 p 和 q。 三十七、机器学习里,特征缩放咋弄? 特征缩放是为了让不同量纲的变量对比更公平,比如身高和体重,直接相加没意义,但都除以标准差就撇脱多了。常用的方式有标准化(Z-score),减去均值除以标准差。
还有归一化,把数据缩放到 0 到 1 之间。
要是数据有负值,要先做平移要么极值缩放。 三十八、统计学里,P 值如何解读? P 值本身不代表概率大小,不代表因果性。P < 0.05 只能说明在假设成立的条件下,出现如此极端结局的概率极低,不能说明原假设一定错。
要是 P 挺大,说明观测结局挺可能来自原假设。解读时要结合效应量和样本量综合判断,单看 P 值好办误判。 三十九、回归分析里,残差正态性假设如何验? 检验残差正态性常用的是 Shapiro-Wilk 检验,P 值小于 0.05 说明残差不知足正态分布。也能够用 Q-Q 图,看残差点是否落在对角线上。
要是残差对数正态,能够用 Box-Cox 变换处理,使残差回归正态,知足模型假设。 四十、机器学习里,特征工程咋做? 特征工程是让数据更适合模型的过程。包含数据清洗、特征选择、特征工程。特征选择包含筛选、信息增益、递归特征消除。特征工程是把原始数据转化为新特征,比如把文本转成词袋模型,把工夫序列转化成滑动窗口数值。 四十一、回归分析里,多重共线性的影响 多重共线性会让回归系数估摸不稳定,标准误变大,t 值变小,害得显著性检验失效。
这会让模型的预测效果波动,解释性变差。出于系数是负的,当变量呈负相关时,系数会变大,可能变成显著性的负面。 四十二、概率论里,期望和方差咋算? 期望 $E[X]$ 就是数学期望,平均值。方差 $Var(X)$ 是随机变量的离散程度,等于 $E[(X - E[X])^2]$。方差的计算一定要先求均值,再求二阶矩。
这两个量在预测模型里挺关键,比如均值代表中心趋势,方差代表波动范围。 四十三、工夫序列里,趋势分解咋算? 趋势分解是把原始数据拆成季节项、循环项、趋势项、残差项。方式有传统的经典分解法,用最小二乘法拟合趋势。也有用平滑法,比如移动平均、指数平滑法。分解后,趋势项就是实际值减去季节和循环项后的局部。 四十四、统计学里,样本量不够咋整? 样本量不够,统计推断的结论就没意义了。得用小样本修正系数,比如用 t 值代替 z 值。
要么用贝叶斯方式,根据先验分布和似然函数更新后验分布。也能够用非参数方式,如中位数回归、核密度估摸。总而言之要根据数据特征选合适的检验方式。 四十五、机器学习里,过拟合的缓解策略 除了前面提到的正则化、交叉验证,还能够用数据增强,故意生成更多数据训练模型。
要么用集成学习,比如随机森林、梯度提升,通过多个弱模型组合来增强泛化本事。还能够用 dropout 在训练时随机丢弃层,模拟 Dropout 效果,防止过拟合。 四十六、回归分析里,共线性对系数的影响 共线性会害得回归系数符号不一致,就连出现抵消效应。
比如两个正相关变量与此同时被选入模型,系数可能一正一负。
这时候模型的解释就乱了,可能正解释负,就连负解释正,害得模型丧失实际意义。需求谨慎处理,要么剔除其中一个变量。 四十七、概率论里,全概率公式咋用? 全概率公式 $P(B) = sum P(A_i|B)P(B_i)$ 用于计算复杂事件形成的概率。当某事件由多个互斥子事件组成时,用全概率公式求和。在贝叶斯更新里,也能够用全概率公式把后验概率和先验概率联系起来。 四十八、回归分析里,残差模式诊断 识别残差模式是模型诊断的关键。
要是出现漏斗形,说明存有异方差。
要是出现线性趋势,说明模型低估或高估。
要是出现随机分布,说明模型没难题。
要是出现周期性,说明残差有自相关。能够通过绘图或统计检验来诊断。 四十九、工夫序列里,ARIMA 模型咋构建? ARIMA 模型由 AR 局部、I 局部和 MA 局部组成。AR 局部用于捕捉趋势,I 局部用于平稳化,MA 局部用于捕捉噪声。构建模型时,先做差分使序列平稳,再确定 AR 和 MA 阶数。常用信息准则选参数,比如 AIC 或 BIC。 五十、统计学里,假设检验的 p 值解释 p 值是在原假设成立的条件下,观察到当前或更极端结局的概率。
要是 p 值小于显著性水平,回绝原假设;要是大于显著性水平,接纳原假设。p 值不是边际显著,也不是效应大小,只是说明数据与假设的偏离程度。解读时要结合具体场景和理论背景。