跳转到内容

草稿:台湾语言通用语料库专案

维基百科,自由的百科全书

台湾语言通用语料库专案 (Taiwan Tongues),是IMA(中华民国资讯经理人协会)所倡议[1],旨在汇整台湾各通行语言语料库,尽可能建立完整索引,并透过台湾民间的力量,扩充台湾本土语言的语料库,亦旨在让世界各地的大型语言模型可以借此索引及语料库,更有效率地取得语料库以进行合作,提升台湾语言在AI时代的影响力。

Taiwan Tongues专案自建之作家语料库

[编辑]

胡长松语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots| 此为台语文学作家胡长松所贡献的台语小说文本语料库,超过100万字。[2]

陈金顺语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此为台语文学作家陈金顺所贡献的台语小说文本语料库,约45万字。[3]

洪明道语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-abt | 此为台语文学作家洪明道所贡献的台语小说文本语料库,约7万字。[4]

林瑞崐语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ljk | 此为台语文学作家林瑞崐所贡献的台语论文文本语料库,约10万字。[5]

王罗蜜多语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-olbt | 此为台语文学作家王罗蜜多所贡献的台语小说文本语料库,约12万字。[6]

高嘉徽语料库: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-kkh | 此为台语文学作家高嘉徽所贡献的台语小说文本语料库,约2万字。[7]

小城绫子语料库: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-sslts | 此为台语文学作家小城绫子所贡献的台语小说文本语料库,约10万字。[8]

陈秀枝语料库: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此为台语文学作家陈秀枝所贡献的台语诗歌文本语料库,约2万字。[9]

  1. ^ 公視台語台新聞報導 2025/3/31. 
  2. ^ IMA Taiwan Tongues datasets. 
  3. ^ IMA Taiwan Tongues datasets. 
  4. ^ IMA Taiwan Tongues datasets. 
  5. ^ IMA-Taiwan Taiwan Tongues Datasets. 
  6. ^ IMA Taiwan Tongues Datasets. 
  7. ^ IMA Taiwan Tongues datasets. 
  8. ^ IMA Taiwan Tongues datasets. 
  9. ^ IMA Taiwan Tongues datasets.