跳转到内容

草稿:教师模型

维基百科,自由的百科全书

教师模型(Teacher Model)是知识蒸馏(Knowledge Distillation)技术中的核心组件之一,指在模型压缩或知识转移过程中,被用来提供学习目标的原始大型模型。教师模型通常已经在目标任务上完成训练,具备强大的表征能力与泛化能力,其行为被用作学生模型(Student Model)的学习范本。

== 定义 == 教师模型是一个参数量较大、结构复杂的神经网路模型,能够准确地执行分类、预测、语言理解等任务。在知识蒸馏中,其主要任务是输出“软标签”(Soft Target),如 softmax 机率分布、logits、注意力分布、或中间特征表征等资讯,供学生模型模仿学习。

特性

[编辑]

通常为深度神经网路,如 BERTGPTResNetTransformer

已完成训练,权重固定,不再进行更新

能提供精细、稳定的类别判断与语意逻辑结构

可在多模态(图像、语音、文字)任务中担任跨领域教师


应用情境

[编辑]

在边缘装置部署前,将大型教师模型知识压缩至轻量学生模型

用于多学生训练,提升稳定性与泛化性

可结合其他压缩技术(剪枝量化)达成更高效模型转移


== 与学生模型比较 == {| class="wikitable" ! 类别 !! 教师模型 !! 学生模型 |- | 大小 || 通常较大 || 较小,适合部署 |- | 训练状态 || 已完成训练 || 蒸馏中学习中 |- | 输出 || 完整 logits、特征、注意力 || 模仿学习教师输出 |}

参见

[编辑]

知识蒸馏

Student Model

Soft Target

Feature-based Distillation

Transformer


Category:机器学习 Category:人工智慧