草稿:软标签
外观
![]() | 本草稿尚未提交审核
提交前,请先查阅维基百科不是什么,以免犯下常见错误。 要让草稿被接受,需要至少满足以下要求:
我们强烈不鼓励您创建与您自己、您所在的组织、其对手或其产品相关的条目。如果您仍要这么做,请申报利益冲突。 注意:若您提交之后,本模板出现在页面最下方,表示您已成功提交。
如何改善您的草稿
| ![]() |
软标签(Soft Target)是知识蒸馏(Knowledge Distillation)中的核心概念,指由教师模型(Teacher Model)输出之 softmax 机率分布,相较于传统 one-hot 编码的硬标签(Hard Target),软标签能提供更多类别之间的相对关系与语意结构资讯,常被称为“暗知识”(Dark Knowledge)。
定义
[编辑]在分类任务中,模型输出的 logits 经过 softmax 函数转换为机率分布:
其中 为温度参数(Temperature),控制分布的平滑程度。当 时,输出分布更平滑,强调次要类别的重要性,使学生模型能学习教师模型对各类别的置信结构。
特性
[编辑]- 可反映样本与非正解类别的关联程度
- 保留教师模型对任务的整体理解与模糊边界
- 在模型训练中提供更多梯度讯号,有助于学生模型收敛与泛化
与硬标签比较
[编辑]标签类型 | 表示方式 | 资讯量 |
---|---|---|
软标签 | 机率分布(如 [0.6, 0.3, 0.1]) | 高,含多类别关系 |
硬标签 | One-hot(如 [1, 0, 0]) | 低,仅标示正解类别 |
应用场景
[编辑]- 知识蒸馏中的学生模型训练
- Self-distillation、Online Distillation 等多种蒸馏策略中皆使用
- 可作为正则化讯号,提升模型稳健性与对抗样本抵抗力