草稿:學生模型
外觀
![]() | 本草稿尚未提交審核
提交前,請先查閱維基百科不是什麼,以免犯下常見錯誤。 要讓草稿被接受,需要至少滿足以下要求:
我們強烈不鼓勵您創建與您自己、您所在的組織、其對手或其產品相關的條目。如果您仍要這麼做,請申報利益衝突。 注意:若您提交之後,本模板出現在頁面最下方,表示您已成功提交。
如何改善您的草稿
| ![]() |
學生模型(Student Model)是知識蒸餾(Knowledge Distillation)架構中的核心組件之一,指透過模仿教師模型(Teacher Model)輸出來學習任務知識的小型模型。其目的是在維持模型表現的同時,降低模型大小與運算成本,便於實際部署於資源有限的環境。
定義
[編輯]學生模型是經由蒸餾學習教師模型行為的小型神經網絡。它可具有不同於教師模型的結構與參數量,但須具備相容的輸出空間。學生模型透過學習教師輸出的軟標籤(如 softmax 分布)、中間層特徵或注意力權重,來重現教師模型的分類邏輯與語意關聯。
特性
[編輯]- 結構輕量,適合即時推論與邊緣部署
- 訓練時間短、收斂速度快
- 可搭配Feature-based Distillation、Relation-based Distillation等策略提升表現
- 不需與教師模型架構相同,具高度靈活性
訓練方式
[編輯]學生模型的訓練損失結合教師模型的軟標籤與真實標籤,典型損失函數如下:
其中:
- 為交叉熵損失
- 為KL 散度
- 為溫度參數, 為權重系數
- 為學生模型預測, 為教師模型輸出分布
應用場景
[編輯]- 流動裝置、瀏覽器端、IoT 裝置部署
- 線上推論系統之加速與簡化
- 多任務學習或Self-distillation環境中作為主學習模型
與教師模型比較
[編輯]類別 | 教師模型 | 學生模型 |
---|---|---|
大小 | 通常較大 | 較小,適合部署 |
訓練狀態 | 已完成訓練 | 蒸餾中學習中 |
輸出 | 完整 logits、特徵、注意力 | 模仿學習教師輸出 |