草稿:台湾语言通用语料库专案
![]() | 本草稿尚未提交审核
提交前,请先查阅维基百科不是什么,以免犯下常见错误。 要让草稿被接受,需要至少满足以下要求:
我们强烈不鼓励您创建与您自己、您所在的组织、其对手或其产品相关的条目。如果您仍要这么做,请申报利益冲突。 注意:若您提交之后,本模板出现在页面最下方,表示您已成功提交。
如何改善您的草稿
| ![]() |
台湾语言通用语料库专案 (Taiwan Tongues),是IMA(中华民国资讯经理人协会)所倡议[1],旨在汇整台湾各通行语言语料库,尽可能建立完整索引,并透过台湾民间的力量,扩充台湾本土语言的语料库,亦旨在让世界各地的大型语言模型可以借此索引及语料库,更有效率地取得语料库以进行合作,提升台湾语言在AI时代的影响力。
Taiwan Tongues专案自建之作家语料库
[编辑]胡长松语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots| 此为台语文学作家胡长松所贡献的台语小说文本语料库,超过100万字。[2]
陈金顺语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此为台语文学作家陈金顺所贡献的台语小说文本语料库,约45万字。[3]
洪明道语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-abt | 此为台语文学作家洪明道所贡献的台语小说文本语料库,约7万字。[4]
林瑞崐语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ljk | 此为台语文学作家林瑞崐所贡献的台语论文文本语料库,约10万字。[5]
王罗蜜多语料库:https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-olbt | 此为台语文学作家王罗蜜多所贡献的台语小说文本语料库,约12万字。[6]
高嘉徽语料库: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-kkh | 此为台语文学作家高嘉徽所贡献的台语小说文本语料库,约2万字。[7]
小城绫子语料库: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-sslts | 此为台语文学作家小城绫子所贡献的台语小说文本语料库,约10万字。[8]
陈秀枝语料库: https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tsk | 此为台语文学作家陈秀枝所贡献的台语诗歌文本语料库,约2万字。[9]