SBIR-智財新知： AI 聽懂台灣語言！Taiwan Tongues 語料庫開源釋出、新啟 Wiki Taiwan 專案

:::

AI 聽懂台灣語言！Taiwan Tongues 語料庫開源釋出、新啟 Wiki Taiwan 專案

IMA 資訊經理人協會攜手作家組成「Team Taiwan」，推動 Taiwan Tongues 台灣通用語料庫計畫，讓全世界 AI 都能「聽台灣」。

生成式 AI 正以前所未有的速度改變全球溝通和知識生產，然而主流模型多以英文、簡體中文等資料為訓練基礎，台灣華語、台語、客語及原住民族語在數位語料中嚴重缺席，導致 AI 難以理解台灣語言和文化。

數位發展部次長林宜敬出席記者會談道，現今 AI 系統由大量語料訓練而成，而數發部之前評測二三十種模型發現，例如詢問二次大戰在中國戰場的主力軍隊是「國軍」還是「共軍」時，部分模型會回答「共軍」，這與史實不符，是因模型背後由大量簡體中文語料加以訓練，就有中共的觀點。與此同時，科技公司對於使用台灣本土語料擔心有版權糾紛，而相對較不重視智慧財產權的中國取得語料容易，形成嚴重落差。

為此，IMA 資訊經理人協會攜手作家發起「Taiwan Tongues 台灣通用語料庫」計畫，要讓台灣語言不只是被保存，更能成為全球模型學習的核心語料，讓世界真正理解台灣。

Taiwan Tongues 計畫第一步即是擴大台灣語料庫，包含台灣華語、台灣台語、台灣客語及原住民語。

由吳三連獎得主的台語文學作家胡長松出任 Taiwan Tongues 計畫執行委員會主委，他無償釋出 150 萬字文學作品，並號召數十位作家授權來共襄盛舉，累計超過 500 萬字高品質語料，陸續上架 Hugging Face 平台，開放各界用於非商業用途，支援語音助理、機器翻譯、語言教學及數位文化推廣等應用，打造跨語種、可供 AI 訓練和研究使用的開放資料庫。

Taiwan Tongues 計畫設計了專屬測試集，由 IMA 協會提供語境和語言能力評測標準，與陽明交通大學教授廖元甫合作，進行模型實證測試。廖元甫的團隊將作家語料結合教育部台語辭典等公用語料庫，對模型進行持續預訓練（Continual Pre-Training，CPT）和監督式微調（Supervised Fine-tuning，SFT），結果顯示台語模型的正確率顯著提昇，能夠理解語意、寫成書信文字等。

Taiwan Tongues 計畫還有政府的支持，林宜敬表示，數發部統籌整合政府機關掌握的語料，計劃加以開放，可讓 Taiwan Tongues 計畫以及更多民間單位取用。未來也將強化政府與民間在語料開放、模型建構及應用評測上的合作，這有助於建構台灣主權 AI。

AI 訓練不只要有 GPU 算力，還需要記憶體以擴充硬體設施。群聯電子是 Taiwan Tongues 計畫一員，群聯技術長林緯指出，這項計畫整合 Reward Model 及 RL 微調技術，開發一套具備多元觀點辨識和區域語意調適能力，可做為企業訓練在地化 AI 的訓練框架。

啟動 Wiki Taiwan 專案

Taiwan Tongues 計畫預計啟動 Wiki Taiwan 專案，擴增台灣語言在網路世界的能見度。對於台灣華語，將號召有志人士優先補齊維基百科中「只有英文（或其他主流語言）但尚缺繁體中文」的條目，補足語言差集

胡長松提出月入百萬字接力翻譯計畫，針對台語，第一階段將先直接翻譯目前維基百科約 140 萬筆繁體中文條目變成台語內容，第二階段再進行與英文條目的差集翻譯。這麼做不僅大幅增加台灣通用語言的數位內容和 AI 訓練語料，也將進一步實現數位平權和語言文化自主

Taiwan Tongues 計畫將會持續募集台灣華語、台語、客語及原住民族語等多語種語料，與國際大型語言模型平台合作，讓台灣語言成為全球 AI 生態系中不可或缺的一部分。

<資料來源：TechNews科技新報，作者陳冠榮。https://technews.tw/2025/07/04/taiwan-tongues/>