數據標註
外觀
數據標註是指對數據加上一個或多個標籤的過程。例如,在未被標註的一張照片中,可以標註該圖片是馬還是牛,在一個未被標註的音訊中,可以標註它裏面說了哪些詞,或者是一段影片中的演員正在做了什麼動作、新聞文章的主題是什麼、一則推文在表達什麼樣的情緒、X光圖中某個點是否為腫瘤。
標記過程需要人類介入,即人為的給這些數據加上標籤。[1]正因為這樣,獲取被標註過的數據的成本比獲取原始未標註的數據的成本高得多。
數據標籤的準確性直接影響監督學習的效果,因為監督學習就是根據數據上的標籤學習的。 [2]
參考文獻
[編輯]- ^ What is Data Labeling? - Data Labeling Explained - AWS. Amazon Web Services, Inc. [2024-07-16] (美國英語).
- ^ Fredriksson, Teodor; Mattos, David Issa; Bosch, Jan; Olsson, Helena Holmström, Morisio, Maurizio; Torchiano, Marco; Jedlitschka, Andreas , 編, Data Labeling: An Empirical Investigation into Industrial Challenges and Mitigation Strategies, Product-Focused Software Process Improvement (Cham: Springer International Publishing), 2020, 12562: 202–216 [2024-07-13], ISBN 978-3-030-64147-4, doi:10.1007/978-3-030-64148-1_13 (英語)