跳至內容

草稿:學生模型

維基百科,自由的百科全書

學生模型(Student Model)是知識蒸餾(Knowledge Distillation)架構中的核心組件之一,指透過模仿教師模型Teacher Model)輸出來學習任務知識的小型模型。其目的是在維持模型表現的同時,降低模型大小與運算成本,便於實際部署於資源有限的環境。

定義

[編輯]

學生模型是經由蒸餾學習教師模型行為的小型神經網路。它可具有不同於教師模型的結構與參數量,但須具備相容的輸出空間。學生模型透過學習教師輸出的軟標籤(如 softmax 分布)、中間層特徵或注意力權重,來重現教師模型的分類邏輯與語意關聯。

特性

[編輯]

訓練方式

[編輯]

學生模型的訓練損失結合教師模型的軟標籤與真實標籤,典型損失函數如下:

其中:

  • 為交叉熵損失
  • KL 散度
  • 為溫度參數, 為權重係數
  • 為學生模型預測, 為教師模型輸出分布

應用場景

[編輯]
  • 行動裝置、瀏覽器端、IoT 裝置部署
  • 線上推論系統之加速與簡化
  • 多任務學習或Self-distillation環境中作為主學習模型

與教師模型比較

[編輯]
類別 教師模型 學生模型
大小 通常較大 較小,適合部署
訓練狀態 已完成訓練 蒸餾中學習中
輸出 完整 logits、特徵、注意力 模仿學習教師輸出

參見

[編輯]

Category:機器學習 Category:人工智慧