台灣主權AI訓練語料庫 將與民間合作


記者陳柏翰∕台北報導

數發部二十七日指出,台灣主權AI訓練語料庫上線一個多月,政府機關持續新增內容,目前共逾三千筆資料集、超過十一億詞元(Tokens),已有企業與學研界申請使用;第一季、第二季會邀集地方政府投入,目標今年下半年與民間團體合作。

數發部推動台灣主權AI訓練語料庫,第一階段以中央機關先行,收錄各機關具台灣文化特色的高品質資料集,涵蓋語言、文化、教育、生物、地理環境等領域,語料庫去年十二月二十四日上線,AI模型訓練等需求者可上台灣主權AI訓練語料庫申請。

數發部資料創新司司長莊明芬二十七日表示,中央機關持續上傳內容,提供高品質、具在地化特色的正體中文語料,語料庫詞元數量已翻倍成長,新增資料以文化、教育與歷史類為主,目前申請者多來自企業、學術界及大學。

此外,數發部也與中研院、台灣文學館等單位洽談,未來希望資料量較豐沛的機關能進行盤點,釋出相關資料;地方政府擁有在地文化與歷史等內容,數發部預計第一季、第二季邀集地方政府投入,並將舉辦說明會向民間推廣,鼓勵民間主動參與,優先無償提供高品質語料,預計今年下半年與民間團體展開合作。

莊明芬說,在資料治理方面,政府資料開放平台運作至今已逾十年,累計超過五萬項資料集,資料可運用於多項創新應用。其中,「顯著有感地震報告」下載次數最高,累計近一百二十萬次,其次為「小區域有感地震報告」,下載量累計逾六十二萬次。

數發部數位政府司司長王誠明指出,今年起至民國一一九年,將推動智慧政府數位化精進發展計畫,由十六個機關、三十一個子計畫組成,包含人工智慧AI試用場域與創新計畫、資料匯流、資料隱私強化等,預定投入經費約新台幣一百二十億元,透過AI等技術驅動數位轉型,期盼增加便民服務並提升政府效能。