AI 聽懂台灣語言!Taiwan Tongues 語料庫開源釋出、新啟 Wiki Taiwan 專案
IMA 資訊經理人協會攜手作家組成「Team Taiwan」,推動 Taiwan Tongues 台灣通用語料庫計畫,讓全世界 AI 都能「聽台灣」。
生成式 AI 正以前所未有的速度改變全球溝通和知識生產,然而主流模型多以英文、簡體中文等資料為訓練基礎,台灣華語、台語、客語及原住民族語在數位語料中嚴重缺席,導致 AI 難以理解台灣語言和文化。
數位發展部次長林宜敬出席記者會談道,現今 AI 系統由大量語料訓練而成,而數發部之前評測二三十種模型發現,例如詢問二次大戰在中國戰場的主力軍隊是「國軍」還是「共軍」時,部分模型會回答「共軍」,這與史實不符,是因模型背後由大量簡體中文語料加以訓練,就有中共的觀點。與此同時,科技公司對於使用台灣本土語料擔心有版權糾紛,而相對較不重視智慧財產權的中國取得語料容易,形成嚴重落差。
為此,IMA 資訊經理人協會攜手作家發起「Taiwan Tongues 台灣通用語料庫」計畫,要讓台灣語言不只是被保存,更能成為全球模型學習的核心語料,讓世界真正理解台灣。
Taiwan Tongues 計畫第一步即是擴大台灣語料庫,包含台灣華語、台灣台語、台灣客語及原住民語。
由吳三連獎得主的台語文學作家胡長松出任 Taiwan Tongues 計畫執行委員會主委,他無償釋出 150 萬字文學作品,並號召數十位作家授權來共襄盛舉,累計超過 500 萬字高品質語料,陸續上架 Hugging Face 平台,開放各界用於非商業用途,支援語音助理、機器翻譯、語言教學及數位文化推廣等應用,打造跨語種、可供 AI 訓練和研究使用的開放資料庫。
Taiwan Tongues 計畫設計了專屬測試集,由 IMA 協會提供語境和語言能力評測標準,與陽明交通大學教授廖元甫合作,進行模型實證測試。廖元甫的團隊將作家語料結合教育部台語辭典等公用語料庫,對模型進行持續預訓練(Continual Pre-Training,CPT)和監督式微調(Supervised Fine-tuning,SFT),結果顯示台語模型的正確率顯著提昇,能夠理解語意、寫成書信文字等。
Taiwan Tongues 計畫還有政府的支持,林宜敬表示,數發部統籌整合政府機關掌握的語料,計劃加以開放,可讓 Taiwan Tongues 計畫以及更多民間單位取用。未來也將強化政府與民間在語料開放、模型建構及應用評測上的合作,這有助於建構台灣主權 AI。
AI 訓練不只要有 GPU 算力,還需要記憶體以擴充硬體設施。群聯電子是 Taiwan Tongues 計畫一員,群聯技術長林緯指出,這項計畫整合 Reward Model 及 RL 微調技術,開發一套具備多元觀點辨識和區域語意調適能力,可做為企業訓練在地化 AI 的訓練框架。
啟動 Wiki Taiwan 專案
Taiwan Tongues 計畫預計啟動 Wiki Taiwan 專案,擴增台灣語言在網路世界的能見度。對於台灣華語,將號召有志人士優先補齊維基百科中「只有英文(或其他主流語言)但尚缺繁體中文」的條目,補足語言差集
胡長松提出月入百萬字接力翻譯計畫,針對台語,第一階段將先直接翻譯目前維基百科約 140 萬筆繁體中文條目變成台語內容,第二階段再進行與英文條目的差集翻譯。這麼做不僅大幅增加台灣通用語言的數位內容和 AI 訓練語料,也將進一步實現數位平權和語言文化自主
Taiwan Tongues 計畫將會持續募集台灣華語、台語、客語及原住民族語等多語種語料,與國際大型語言模型平台合作,讓台灣語言成為全球 AI 生態系中不可或缺的一部分。
<資料來源:TechNews科技新報,作者 陳冠榮。https://technews.tw/2025/07/04/taiwan-tongues/>