跳转到内容

草稿:台湾语言通用语料库

维基百科,自由的百科全书

台湾语言通用语料库, 亦名Taiwan Tongues, 是IMA所倡议,基于台湾国家语言发展法及国家语言发展方案,旨在建立和大型语言模型的开源专案和学术专案便于整合的完整语料库索引,亦旨在确保所涵盖的语言种类完整性,包含:[1]

台湾华语语料库 (或普称:繁体中文语料库)

台湾台语语料库  (或普称:台语/台湾话/台湾闽南语语料库)

台湾客语语料库 (或普称:客语/客家话)

台湾原住民族语言语料库集

  • 阿美语
  • 排湾语
  • 泰雅语
  • 布农语
  • 卑南语
  • 鲁凯语
  • 邹语
  • 达悟语
  • 赛夏语
  • 邵语
  • 噶玛兰语
  • 太鲁阁语
  • 撒奇莱雅语
  • 赛德克语
  • 拉阿鲁哇语
  • 卡那卡那富语
  • 平埔族群语言

马祖语语料库

此语料库索引以建立AI大型语言模型的语料库亦于参照、并能借此纳入台湾多元语言为首要目标。

  1. ^ 中華民國文化部-國家語言發展. 中华民国文化部. [2025-03-04] (中文(台湾)).