耀世娱乐

你的位置:耀世娱乐 > 耀世娱乐介绍 >

未来虫 AI共学《理解深度学习》第五章 AI的“世界观”——为模型打造明辨是非的“眼睛”

点击次数:122 耀世娱乐介绍 发布日期:2025-09-18 22:27:50
回顾我们的阅读旅程:第二章,我们让AI学会了“画直线”;第三、四章,我们赋予了它拼接直线以“拟合万物”的能力。至此,我们的AI模型已经有了强大的“躯体”,但它依然只是一个没有灵魂的傀儡。它不知道自己的目标是什么,也不知道如何评判自己做得好不

回顾我们的阅读旅程:第二章,我们让AI学会了“画直线”;第三、四章,我们赋予了它拼接直线以“拟合万物”的能力。至此,我们的AI模型已经有了强大的“躯体”,但它依然只是一个没有灵魂的傀儡。它不知道自己的目标是什么,也不知道如何评判自己做得好不好。

第五章“损失函数 (Loss functions)”正是为模型注入“灵魂”的关键。理解后会完成一次至关重要的认知升级。从一个全新的视角,去理解所有监督学习任务背后那个统一的、深刻的黄金准则。

一个观念的转变:从“预测一个值”到“描述一种可能性”

在此之前,我们一直认为神经网络 f[x, φ] 的作用是直接预测一个确定的值 y。但第五章告诉我们,这种看法还不够深刻。

一个更本质的视角是:神经网络的输出,不是一个孤立的数值,而是在描述一个完整的概率分布 Pr(y|x)。

这个转变意义重大。让我用一个比喻来解释:

之前的AI:像一个只会报数的机器。你问它一个20岁年轻人的身高,它回答:“175cm”。

现在的AI:像一个专业的统计学家。你问同样的问题,它会告诉你:“根据数据,这个年轻人的身高最有可能在175cm附近,其概率分布呈现一个以175cm为中心的正态分布。”

这个AI不仅给出了最可能的答案,还给出了答案的不确定性。它不再是输出一个点,而是描绘了一整片“可能性”的风景。

唯一的黄金准则:极大似然估计

一旦我们接受了AI输出的是一个概率分布,那么评判模型好坏的标准就变得异常清晰和统一了:

一个好的模型,应该让所有真实训练数据出现的概率尽可能大。

这个原则,就是统计学中鼎鼎大名的极大似然估计 (Maximum Likelihood Estimation)。它就像是所有监督学习损失函数的“总纲”。作者在书中为我们提炼出了一套“三步法”配方,可以为任何任务“烹饪”出合适的损失函数:

选择合适的“概率工具箱”:根据你的任务类型(y的取值范围),选择一个合适的概率分布。

要做回归(预测连续值)?用正态分布 (Normal Distribution)。

要做二元分类(预测是/否)?用伯努利分布 (Bernoulli Distribution)。

要做多元分类(预测多个类别之一)?用分类分布 (Categorical Distribution)。

让神经网络“操控”这个工具箱:让神经网络的输出,去决定这个概率分布的具体形态。例如,在回归任务中,让网络输出的值成为正态分布的均值 μ。

以“让真实数据概率最大”为目标进行优化:在实际操作中,因为多个小概率相乘会导致数值计算问题,我们通常会取对数,转而最大化对数似然。又因为优化算法通常是求最小值,我们最终的目标就变成了最小化负对数似然 (Negative Log-Likelihood)。

案例实战:为何回归用平方差,分类用交叉熵?

这套“配方”最神奇的地方在于,它揭示了我们习以为常的各种损失函数,其实都源自同一个理论。

回归任务的背后:当我们把正态分布的概率密度函数代入“最小化负对数似然”这个配方时,经过一系列数学推导,那些复杂的指数项、π和常数项都神奇地消失了。最后剩下的,竟然就是我们第二章里最熟悉的最小二乘损失(y_pred - y_true)²!这一刻,理论与直觉完美地握手言和。我们终于从根本上明白了,为什么回归问题要用平方差作为损失。

分类任务的背后:同样地,当我们为分类任务选择伯努利分布或分类分布,并遵循同样的流程时,我们便自然而然地推导出了交叉熵损失 (Cross-Entropy Loss)。

理论的统一与和谐。不同的任务看似需要不同的“标尺”,但其背后都遵循着同一个深刻的统计学原理。这种从第一性原理出发的思考方式,正是这本书最宝贵的财富。

为AI装上“眼睛”

第五章,为我们强大的AI模型装上了一双至关重要的“眼睛”——损失函数。它让模型拥有了评判标准和优化的方向,是连接模型架构与训练算法的核心桥梁。

现在,我们的AI模型有了“身体”(网络架构),也有了“眼睛”(损失函数)。下一步,就是让它真正地“动”起来——我们该如何高效地执行“训练”这个动作,让它在复杂的“损失地貌”上,找到那条通往最优解的路径?