二元线性回归就是跟两个变量谈恋爱,看这两个玩意儿凑一对儿,两个人长得像不像,要么心里有没有数。 别听我啰嗦了,直接上那个公式,别整那些“起初”“其次”的套路。咱们看着就明白,$Y = beta_0 + beta_1 X_1 + beta_2 X_2 + dots + epsilon$,这玩意儿别看看着像数学论文,但说白了就是个算式。$Y$ 是你要预测的那个结局,$X$ 是那些影响它的因素。$beta_0$ 是那个常数,代表当所有 $X$ 都是零的时候 $Y$ 是多少;$beta$ 前面的数字,代表 $X$ 每变动一个单位,$Y$ 平均变动多少;$epsilon$ 就是剩下的那局部没解释的乱七八糟,比如人的性格、喜好、要么那天运气不好。
这个公式本身没啥难题,但把它套进实际工作里,好办闹笑话。 举个例子,咱们想看看“买苹果的人,是不是买瓜的人也买苹果”。
要是你买了苹果,会不会大约率也买瓜?这就是一个二元回归。公式里的 $X_1$ 代表“是不是买过苹果”,$X_2$ 代表“是不是买过瓜”,$Y$ 就是“买苹果的概率”。
要是你买了苹果,$X_1=1$,不买瓜 $X_2=0$,算出来 $Y$ 高,说明这两人是“苹果脑袋”。
要是你只买瓜 $X_1=0, X_2=1$,算出 $Y$ 低,那说明你是“瓜党”。 这个公式最忌讳啥呢?就是忒硬。
真的业务不是冷冰冰的函数,是有温度的人。
比如你说“买苹果的人买瓜概率高”,听起来挺科学,但要是你真让一个压根儿不买苹果、也不买瓜的人去试,结局他可能连苹果都没法提。
这时候 $beta$ 就失效了,出于它假设两个变量彻底独立。真世界里,因果关系挺难搞清。买了苹果的人,往往是出于他缺钱,缺钱的人可能更爱吃瓜?还是出于隔壁老王总拿苹果砸脸,逼着自己买?这时候数据打架,模型就站不稳。 故此,建模的时候,得先打地基。先搞清楚,$X_1$ 和 $X_2$ 到底有没有直接关系。
要是它们相关,那 $Y$ 和 $X_1, X_2$ 的关系可能更复杂。
比方说,$X_1$ 和 $X_2$ 本身也互相关。
这时候直接扔公式,结局就是垃圾进垃圾出。你得自己琢磨,这些变量背后代表的是啥?是老人的喜好,还是新手的判断? 再看数据清洗。别急着跑回归,先看看散点图。
要是图里全是个歪的,要么全是个垂直的,那根本没戏。二元回归需求样本量够大,不然参数估摸不准。
要是只有两个点,拟合得再好也是瞎蒙。得看数据分布,有没有极端值。一个数据点砸上去,整个模型就崩了。
比如那年的房价暴涨,几个异常值,房价预测模型瞬间“老龄化”,彻底跑不起来了。
这时候要么删掉那些异常值,要么换个思路,让它适应新环境。 还要寻思共线性。两个独立变量,一个搞不定,另一个也没法搞。
这时候系数 $beta_1, beta_2$ 就打架了。
这时候不是公式错了,是解释器坏了。你得想办法。
比如去掉其中一个变量,要么做主成分分析。
要么,干脆别强行让它们独立,看能不能找一个能与此同时拟合两者的组合,比如交互项。 最终,如何算?一般/平平最小二乘法是最常用的。它强迫模型找一组 $beta$,让预测的误差最小。但这是最小误差,不代表真世界误差最小。
要是模型表现好,但实际用起来效果差,那肯定不是公式的难题,是业务理解不到位。
比方说,你认定模型说“下雨天买伞的人多”,结局下雨那天没人买伞。
那可能是模型漏掉了啥,要么是数据本身就有难题。 总而言之,二元线性回归就是个工具,不是真理。它能把复杂的关联好办化,但它也会把好办的难题复杂化。
要是你拿着它去严刑苛责,那模型必死无疑。把它当成个参考,当成个聊聊的起点,对了再加修饰,扯对了再砍掉,才能真正用在业务上。
记住,最好的回归模型,不是拟合得最准的那个,而是最能解释那个业务场景的那个。