1. 定位导航本篇是概率与信息论的收官篇,覆盖两大主题:信息论:自信息、香农熵、KL 散度、交叉熵——深度学习损失函数的理论根基结构化概率模型:用图来表达高维联合分布的因子分解——理解 LDA、贝叶斯网络、马尔可夫随机场的基础理解这两块内容后,你就能真正回答:"为什么 logistic 回归用交叉熵而不是 MSE?“以及"GPT 和 BERT 处理的本质上是什么样的概率结构?”2. 自信息:单个事件的信息量2.1 直觉"一个不太可能的事件居然发生了"比"一个非常可能的事件发生"传递的信息更多。“今天早上太阳升起”——信息量极少(几乎没必要发送)“今天早上发生日食”——信息量丰富我们希望对"信息量"的定义满足三个性质:非常可能发生的事件信息量小,确定发生的事件信息量为零较不可能发生的事件信息量更大独立事件的信息量应该可加(抛两次硬币正面的信息量 = 抛一次正面的信息量 × 2)