草稿:学生模型
外观
![]() | 本草稿尚未提交审核
提交前,请先查阅维基百科不是什么,以免犯下常见错误。 要让草稿被接受,需要至少满足以下要求:
我们强烈不鼓励您创建与您自己、您所在的组织、其对手或其产品相关的条目。如果您仍要这么做,请申报利益冲突。 注意:若您提交之后,本模板出现在页面最下方,表示您已成功提交。
如何改善您的草稿
| ![]() |
学生模型(Student Model)是知识蒸馏(Knowledge Distillation)架构中的核心组件之一,指透过模仿教师模型(Teacher Model)输出来学习任务知识的小型模型。其目的是在维持模型表现的同时,降低模型大小与运算成本,便于实际部署于资源有限的环境。
定义
[编辑]学生模型是经由蒸馏学习教师模型行为的小型神经网路。它可具有不同于教师模型的结构与参数量,但须具备相容的输出空间。学生模型透过学习教师输出的软标签(如 softmax 分布)、中间层特征或注意力权重,来重现教师模型的分类逻辑与语意关联。
特性
[编辑]- 结构轻量,适合即时推论与边缘部署
- 训练时间短、收敛速度快
- 可搭配Feature-based Distillation、Relation-based Distillation等策略提升表现
- 不需与教师模型架构相同,具高度灵活性
训练方式
[编辑]学生模型的训练损失结合教师模型的软标签与真实标签,典型损失函数如下:
其中:
- 为交叉熵损失
- 为KL 散度
- 为温度参数, 为权重系数
- 为学生模型预测, 为教师模型输出分布
应用场景
[编辑]- 行动装置、浏览器端、IoT 装置部署
- 线上推论系统之加速与简化
- 多任务学习或Self-distillation环境中作为主学习模型
与教师模型比较
[编辑]类别 | 教师模型 | 学生模型 |
---|---|---|
大小 | 通常较大 | 较小,适合部署 |
训练状态 | 已完成训练 | 蒸馏中学习中 |
输出 | 完整 logits、特征、注意力 | 模仿学习教师输出 |