草稿:台灣語言通用語料庫專案
![]() | 本草稿尚未提交審核
提交前,请先查閱維基百科不是什麼,以免犯下常見錯誤。 要让草稿被接受,需要至少满足以下要求:
我们强烈不鼓励您創建與您自己、您所在的組織、其對手或其產品相關的條目。如果您仍要这么做,请申报利益冲突。 注意:若您提交之后,本模板出现在页面最下方,表示您已成功提交。
如何改善您的草稿
| ![]() |
台灣語言通用語料庫專案 (Taiwan Tongues),是IMA(中華民國資訊經理人協會)所倡議[1],旨在彙整台灣各通行語言語料庫,盡可能建立完整索引,並透過台灣民間的力量,擴充台灣本土語言的語料庫,亦旨在讓世界各地的大型語言模型可以藉此索引及語料庫,更有效率地取得語料庫以進行合作,提升台灣語言在AI時代的影響力。
Taiwan Tongues專案自建之作家語料庫
[编辑]胡長松語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots| 此為台語文學作家胡長松所貢獻的台語小說文本語料庫,超過100萬字。[2]
陳金順語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此為台語文學作家陳金順所貢獻的台語小說文本語料庫,約45萬字。[3]
洪明道語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-abt | 此為台語文學作家洪明道所貢獻的台語小說文本語料庫,約7萬字。[4]
林瑞崐語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ljk | 此為台語文學作家林瑞崐所貢獻的台語論文文本語料庫,約10萬字。[5]
王羅蜜多語料庫:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-olbt | 此為台語文學作家王羅蜜多所貢獻的台語小說文本語料庫,約12萬字。[6]
高嘉徽語料庫: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-kkh | 此為台語文學作家高嘉徽所貢獻的台語小說文本語料庫,約2萬字。[7]
小城綾子語料庫: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-sslts | 此為台語文學作家小城綾子所貢獻的台語小說文本語料庫,約10萬字。[8]
陳秀枝語料庫: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此為台語文學作家陳秀枝所貢獻的台語詩歌文本語料庫,約2萬字。[9]