概率论基础

概率分布、贝叶斯定理与信息论基础。

zyssnh 2026/05/25

概率公理

  1. 非负性:P(A)0P(A) \geq 0
  2. 规范性:P(Ω)=1P(\Omega) = 1
  3. 可列可加性:互斥事件的概率可加

贝叶斯定理

P(AB)=P(BA)P(A)P(B)P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)}

这是整个贝叶斯机器学习的基石

信息论

  • H(X)=xP(x)logP(x)H(X) = -\sum_x P(x) \log P(x)
  • 交叉熵H(P,Q)=xP(x)logQ(x)H(P, Q) = -\sum_x P(x) \log Q(x)
  • KL 散度DKL(PQ)=xP(x)logP(x)Q(x)D_{KL}(P \| Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}

这些概念在机器学习概述的损失函数设计中至关重要。

Transformer 架构解析中,softmax 函数的输出可解释为概率分布,其训练目标通常是最小化交叉熵损失。

线性代数基础 提供了处理多维概率分布所需的矩阵工具。

反向链接 ←

0

暂无节点链接到此处

出链 0 入链 0