〈 府城廣角鏡 〉台灣AI大模型不應過度排斥簡體中文資料

曾志超

中研院長廖俊智表示,已提醒中研院其他AI計畫,勿使用中國大陸資料。(中央社,資料照)

隨著國際上生成式AI呈現火爆式的發展,我國企業、學術界與政府也紛紛建構繁體中文的大模型,有助於減少國際大模型語言的偏見,更適合國人使用。惟部分模型標榜完全排除簡體中文資料,恐已矯枉過正。

由ChatGPT於二0二二底帶動的生成式AI風潮,新創的大型語言模型(LLM)如風起雲湧般的產生,同時也開始浮現AI語言偏見的問題。引用BBC報導,非營利組織「民主與技術中心」(CDT)在其關於AI語言偏見的報告中指出,儘管全球只有百分之十六的人口使用英語,但英語網站卻占全球網站的百分之六十三點七。

而訓練LLM需要透過Common Crawl取得網路免費、開放的資料,英語網站就成為其主要的來源。加上,多數的開發LLM企業都使用英語,會更加深該問題。以MEDA的LLaMa 模型為例,其訓練的資料中,有近九成(百分之八十九點七)的內容是使用英文資料進行訓練,而中文的比例僅有百分之零點一三。

中文網站中又以簡體中文占多數,以由歐洲開發的BLOOM模型為例,語言分布比較多元,涵蓋歐洲各語言以及中文等四十六種語言,英語只占三成,中文比重也比較高,但簡體中文資料占了百分之十六點二,而繁體中文只占百分之零點零五。

若直接使用這些模型,將產生極大的文化差異,以及迥異的價值觀,確實有必要建構以台灣為主體的模型。尤其發生中研院CKIP-Llama-2-7b模型翻車事件,模型回答:國歌是義勇軍進行曲;我國領導人是習近平等離譜的答案。事後中研院長廖俊智表示,已提醒中研院其他AI計畫,勿使用中國資料。似乎將大陸的資料視為洪水猛獸。

繁體中文資料極為有限,除了維基百科與網路資料外,即使加上社群媒體、法律文件;TAIDE模型還使用中央社資料庫、政府報告摘要、科學發展月刊、學術會議論文摘要以及GRB政府研究資訊系統的報告等,資料仍嚴重不足,簡體中文內容就成為補充的選項。

不可否認,中國大陸有嚴格的言論審查機制,並設置網路萬里長城,網路資料不乏政治正確或充滿意識形態的內容,加上兩岸趨於敵對狀態,還有不少對立式言論。Common Crawl時固然有必要限制簡體中文網頁或資料使用,然去除敏感性或高度爭議的內容,仍有許多我國LLM可使用的資料。

其次,並非只有大陸使用簡體中文,部份國家(如新加坡、馬來西亞)也同樣使用,新加坡還將簡體中文列為官方文字之一,若全面排除簡體中文,也將略過這些國家的資料。反而是使用繁體中文的香港與澳門,近年來在中共高度緊縮言論空間,諸多內容也值得商榷。

此外,也有人主張兩岸的用語差異大,例如:大陸法律敘述「項」與「款」的順序剛好與台灣相反。這些用語差異化,只需利用微調(Fine-tuning)、督導式學習(Supervised Learning)等方式即可解決。

至於中研院模型出包,無須過度解讀,蓋該模型並非設計用於通用的模型,而係用於分析明清朝代人物的生平圖譜之用,不僅使用MEDA的Llama-2-7b,還使用了大陸的Atom-7b等二個開源模型為基礎,微調時還使用了大陸的「COIG-PC資料集」和「dolly-15k資料集」,再翻譯成繁體中文。

該模型若用於詢問明清朝代人物,應可表現出色。惟因繁體參數不足且微調不完備,當用於詢問常識性問題,即超乎模型設定的範疇,出現離譜的答案也就不難想像了。

建構符合我國文化、知識、語意、習慣與社會價值的LLM自有其必要,在本土資料量有限下,使用恰當的簡體中文資料,有助於優化模型質量。倘以意識形態悉數排除這些資料,反不利我產業的發展。

(作者為中華經濟與金融協會副秘書長)