数据标注
外观
数据标注是指对数据加上一个或多个标签的过程。例如,在未被标注的一张照片中,可以标注该图片是马还是牛,在一个未被标注的音讯中,可以标注它里面说了哪些词,或者是一段影片中的演员正在做了什么动作、新闻文章的主题是什么、一则推文在表达什么样的情绪、X光图中某个点是否为肿瘤。
标记过程需要人类介入,即人为的给这些数据加上标签。[1]正因为这样,获取被标注过的数据的成本比获取原始未标注的数据的成本高得多。
数据标签的准确性直接影响监督学习的效果,因为监督学习就是根据数据上的标签学习的。 [2]
参考文献
[编辑]- ^ What is Data Labeling? - Data Labeling Explained - AWS. Amazon Web Services, Inc. [2024-07-16] (美国英语).
- ^ Fredriksson, Teodor; Mattos, David Issa; Bosch, Jan; Olsson, Helena Holmström, Morisio, Maurizio; Torchiano, Marco; Jedlitschka, Andreas , 编, Data Labeling: An Empirical Investigation into Industrial Challenges and Mitigation Strategies, Product-Focused Software Process Improvement (Cham: Springer International Publishing), 2020, 12562: 202–216 [2024-07-13], ISBN 978-3-030-64147-4, doi:10.1007/978-3-030-64148-1_13 (英语)