跳转到内容

草稿:学生模型

维基百科,自由的百科全书

学生模型(Student Model)是知识蒸馏(Knowledge Distillation)架构中的核心组件之一,指透过模仿教师模型Teacher Model)输出来学习任务知识的小型模型。其目的是在维持模型表现的同时,降低模型大小与运算成本,便于实际部署于资源有限的环境。

定义

[编辑]

学生模型是经由蒸馏学习教师模型行为的小型神经网络。它可具有不同于教师模型的结构与参数量,但须具备相容的输出空间。学生模型透过学习教师输出的软标签(如 softmax 分布)、中间层特征或注意力权重,来重现教师模型的分类逻辑与语意关联。

特性

[编辑]

训练方式

[编辑]

学生模型的训练损失结合教师模型的软标签与真实标签,典型损失函数如下:

其中:

  • 为交叉熵损失
  • KL 散度
  • 为温度参数, 为权重系数
  • 为学生模型预测, 为教师模型输出分布

应用场景

[编辑]
  • 移动设备、浏览器端、IoT 装置部署
  • 线上推论系统之加速与简化
  • 多任务学习或Self-distillation环境中作为主学习模型

与教师模型比较

[编辑]
类别 教师模型 学生模型
大小 通常较大 较小,适合部署
训练状态 已完成训练 蒸馏中学习中
输出 完整 logits、特征、注意力 模仿学习教师输出

参见

[编辑]

Category:机器学习 Category:人工智能