跳转到内容

草稿:台灣語言通用語料庫專案

维基百科,自由的百科全书

台灣語言通用語料庫專案 (Taiwan Tongues),是IMA(中華民國資訊經理人協會)所倡議[1],旨在彙整台灣各通行語言語料庫,盡可能建立完整索引,並透過台灣民間的力量,擴充台灣本土語言的語料庫,亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫,更有效率地取得語料庫以進行合作,提升台灣語言在AI時代的影響力。

Taiwan Tongues專案自建之作家語料庫

[编辑]

胡長松語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots| 此為台語文學作家胡長松所貢獻的台語小說文本語料庫,超過100萬字。[2]

陳金順語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此為台語文學作家陳金順所貢獻的台語小說文本語料庫,約45萬字。[3]

洪明道語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-abt | 此為台語文學作家洪明道所貢獻的台語小說文本語料庫,約7萬字。[4]

林瑞崐語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ljk | 此為台語文學作家林瑞崐所貢獻的台語論文文本語料庫,約10萬字。[5]

王羅蜜多語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-olbt | 此為台語文學作家王羅蜜多所貢獻的台語小說文本語料庫,約12萬字。[6]

高嘉徽語料庫: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-kkh | 此為台語文學作家高嘉徽所貢獻的台語小說文本語料庫,約2萬字。[7]

小城綾子語料庫: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-sslts | 此為台語文學作家小城綾子所貢獻的台語小說文本語料庫,約10萬字。[8]

陳秀枝語料庫: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此為台語文學作家陳秀枝所貢獻的台語詩歌文本語料庫,約2萬字。[9]

  1. ^ 公視台語台新聞報導 2025/3/31. 
  2. ^ IMA Taiwan Tongues datasets. 
  3. ^ IMA Taiwan Tongues datasets. 
  4. ^ IMA Taiwan Tongues datasets. 
  5. ^ IMA-Taiwan Taiwan Tongues Datasets. 
  6. ^ IMA Taiwan Tongues Datasets. 
  7. ^ IMA Taiwan Tongues datasets. 
  8. ^ IMA Taiwan Tongues datasets. 
  9. ^ IMA Taiwan Tongues datasets.