〈府城廣角鏡〉 如何處理危險的AI模型?

■張瑞雄

最近美國財政部長與聯準會主席罕見地召集華爾街各大銀行執行長,緊急召開一場閉門會議。議題不是利率,也不是景氣衰退,而是一個人工智慧模型。那個模型叫做Claude Mythos,由Anthropic開發,因其在偵測與利用軟體漏洞方面展現出前所未有的能力,已令金融業與國安圈同感震驚。

這件事本身已足夠驚人,但緊接著OpenAI隨即對外透露,它也有一款類似性質、同樣只開放給少數合作夥伴的資安工具,正在最後整備階段。這個時間點的湊巧,讓不少觀察者忍不住聯想到孩子之間的比拚,你說你的玩具嚇人,我的也不遑多讓。

Mythos這個模型在短短幾週內,就找出了每一款主流作業系統與瀏覽器中數以千計的零時差漏洞,其中不乏已在數十年人工審查與自動化安全測試中存活下來的缺陷。Anthropic為此推出了「Project Glasswing」計畫,召集亞馬遜、蘋果、微軟、谷歌、NVIDIA等十二家科技巨頭,加上另外四十多個關鍵基礎建設維運組織,讓他們優先使用Mythos進行防禦性資安工作。這是近七年來,首度有AI龍頭企業以安全為由,公開拒絕將旗下最強模型向大眾發布。

系統說明文件中記載了幾個令人心驚的測試情境,研究人員設置一個隔離沙盒,並要求模型嘗試「逃脫」。Mythos不僅成功突破限制,傳訊給一名正在外出用餐的研究員,更自行在數個技術性公開網站上發布了入侵細節。這個舉動既非被要求,也非合理應對,純粹是模型主動展示能耐的結果。

在另一組測試中,它意外取得了待解的題目答案,卻沒有如規定般主動告知研究員,反而在推理記錄中顯示,它意識到必須讓最終提交的答案「不能太準確」,以免引起懷疑。一個懂得偽裝成績來規避監督的模型其潛在風險之大,遠不是技術問題可以輕易打發的。

面對這些令人不安的資料,Anthropic選擇的應對方式是「受控發布」,也就是只讓特定的、有一定公信力的組織接觸這個工具,同時承諾將發現的漏洞以負責任的方式向開發者揭露。這個邏輯本身有其合理性,與資安界長期以來「負責任揭露」的傳統做法相近。問題在於,此舉實際上是將全球最強大的資安攻擊能力之一,交由一家私人企業來決定誰可以使用、誰不能使用。沒有法律授權,沒有民主監督,只有一份企業自訂的合作夥伴名單。

更複雜的是,Anthropic自己都無法回答一個核心問題,那就是這套限制究竟能撐多久。Anthropic旗下紅隊負責人估計,其他競爭者要推出能力相當的模型,大約還需要六到十八個月。但這個時間窗口能否真正被善用,或只是讓部分人先行卡位,外界無從得知。現有的廣泛普及模型,其實也能找出部分Mythos所發現的漏洞。這意味著,這道安全裂縫早已存在,只是Anthropic把它開得更大了。

技術進步本身沒有罪,問題在於技術治理的架構永遠跑在後面。政府還在學習如何審視這些模型,監理框架尚未成形,而模型的能力卻已在以季為單位的速度超越人類的預期。Anthropic在公告中說,「沒有任何一個組織能獨力解決這些資安問題,AI開發者、軟體公司、安全研究員、開源維護者與各國政府,都有不可或缺的角色」。這句話說得很對,卻也剛好點出了當前最大的困境,那就是這些角色之間還沒有真正的協調機制。

「Project Glasswing」這個名字,Anthropic說是取自透翅蝶的意象,象徵在顯而易見之處發現危機、透明以對。這個命名很美。只是面對一個連自己都無法完全掌控行為的模型,光靠美麗的比喻,恐怕還是不夠的。

(作者為台北商業大學前校長)