跳转到内容

草稿:台灣語言通用語料庫

维基百科,自由的百科全书

台灣語言通用語料庫, 亦名Taiwan Tongues, 是IMA所倡議,基於台灣國家語言發展法及國家語言發展方案,旨在建立和大型語言模型的開源專案和學術專案便於整合的完整語料庫索引,亦旨在確保所涵蓋的語言種類完整性,包含:[1]

臺灣華語語料庫 (或普稱:繁體中文語料庫)

臺灣台語語料庫  (或普稱:台語/台灣話/臺灣閩南語語料庫)

臺灣客語語料庫 (或普稱:客語/客家話)

臺灣原住民族語言語料庫集

  • 阿美語
  • 排灣語
  • 泰雅語
  • 布農語
  • 卑南語
  • 魯凱語
  • 鄒語
  • 達悟語
  • 賽夏語
  • 邵語
  • 噶瑪蘭語
  • 太魯閣語
  • 撒奇萊雅語
  • 賽德克語
  • 拉阿魯哇語
  • 卡那卡那富語
  • 平埔族群語言

馬祖語語料庫

此語料庫索引以建立AI大型語言模型的語料庫亦於參照、並能藉此納入台灣多元語言為首要目標。

  1. ^ 中華民國文化部-國家語言發展. 中華民國文化部. [2025-03-04] (中文(臺灣)).