跳转到内容

草稿:教師模型

维基百科,自由的百科全书

教師模型(Teacher Model)是知識蒸餾(Knowledge Distillation)技術中的核心組件之一,指在模型壓縮或知識轉移過程中,被用來提供學習目標的原始大型模型。教師模型通常已經在目標任務上完成訓練,具備強大的表徵能力與泛化能力,其行為被用作學生模型(Student Model)的學習範本。

== 定義 == 教師模型是一個參數量較大、結構複雜的神經網路模型,能夠準確地執行分類、預測、語言理解等任務。在知識蒸餾中,其主要任務是輸出「軟標籤」(Soft Target),如 softmax 機率分布、logits、注意力分布、或中間特徵表徵等資訊,供學生模型模仿學習。

特性

[编辑]

通常為深度神經網路,如 BERTGPTResNetTransformer

已完成訓練,權重固定,不再進行更新

能提供精細、穩定的類別判斷與語意邏輯結構

可在多模態(圖像、語音、文字)任務中擔任跨領域教師


應用情境

[编辑]

在邊緣裝置部署前,將大型教師模型知識壓縮至輕量學生模型

用於多學生訓練,提升穩定性與泛化性

可結合其他壓縮技術(剪枝量化)達成更高效模型轉移


== 與學生模型比較 == {| class="wikitable" ! 類別 !! 教師模型 !! 學生模型 |- | 大小 || 通常較大 || 較小,適合部署 |- | 訓練狀態 || 已完成訓練 || 蒸餾中學習中 |- | 輸出 || 完整 logits、特徵、注意力 || 模仿學習教師輸出 |}

參見

[编辑]

知識蒸餾

Student Model

Soft Target

Feature-based Distillation

Transformer


Category:機器學習 Category:人工智慧