草稿:教师模型
![]() | 本草稿尚未提交审核
提交前,请先查阅维基百科不是什么,以免犯下常见错误。 要让草稿被接受,需要至少满足以下要求:
我们强烈不鼓励您创建与您自己、您所在的组织、其对手或其产品相关的条目。如果您仍要这么做,请申报利益冲突。 注意:若您提交之后,本模板出现在页面最下方,表示您已成功提交。
如何改善您的草稿
| ![]() |
教师模型(Teacher Model)是知识蒸馏(Knowledge Distillation)技术中的核心组件之一,指在模型压缩或知识转移过程中,被用来提供学习目标的原始大型模型。教师模型通常已经在目标任务上完成训练,具备强大的表征能力与泛化能力,其行为被用作学生模型(Student Model)的学习范本。
== 定义 == 教师模型是一个参数量较大、结构复杂的神经网路模型,能够准确地执行分类、预测、语言理解等任务。在知识蒸馏中,其主要任务是输出“软标签”(Soft Target),如 softmax 机率分布、logits、注意力分布、或中间特征表征等资讯,供学生模型模仿学习。
特性
[编辑]通常为深度神经网路,如 BERT、GPT、ResNet、Transformer 等
已完成训练,权重固定,不再进行更新
能提供精细、稳定的类别判断与语意逻辑结构
可在多模态(图像、语音、文字)任务中担任跨领域教师
应用情境
[编辑]在边缘装置部署前,将大型教师模型知识压缩至轻量学生模型
用于多学生训练,提升稳定性与泛化性
== 与学生模型比较 == {| class="wikitable" ! 类别 !! 教师模型 !! 学生模型 |- | 大小 || 通常较大 || 较小,适合部署 |- | 训练状态 || 已完成训练 || 蒸馏中学习中 |- | 输出 || 完整 logits、特征、注意力 || 模仿学习教师输出 |}