概率公理
- 非负性:
- 规范性:
- 可列可加性:互斥事件的概率可加
贝叶斯定理
这是整个贝叶斯机器学习的基石。
信息论
- 熵:
- 交叉熵:
- KL 散度:
这些概念在机器学习概述的损失函数设计中至关重要。
在Transformer 架构解析中,softmax 函数的输出可解释为概率分布,其训练目标通常是最小化交叉熵损失。
线性代数基础 提供了处理多维概率分布所需的矩阵工具。
这是整个贝叶斯机器学习的基石。
这些概念在机器学习概述的损失函数设计中至关重要。
在Transformer 架构解析中,softmax 函数的输出可解释为概率分布,其训练目标通常是最小化交叉熵损失。
线性代数基础 提供了处理多维概率分布所需的矩阵工具。
暂无节点链接到此处