〈府城廣角鏡〉如何處理危險的AI模型？

■張瑞雄

最近美國財政部長與聯準會主席罕見地召集華爾街各大銀行執行長，緊急召開一場閉門會議。議題不是利率，也不是景氣衰退，而是一個人工智慧模型。那個模型叫做Claude Mythos，由Anthropic開發，因其在偵測與利用軟體漏洞方面展現出前所未有的能力，已令金融業與國安圈同感震驚。

這件事本身已足夠驚人，但緊接著OpenAI隨即對外透露，它也有一款類似性質、同樣只開放給少數合作夥伴的資安工具，正在最後整備階段。這個時間點的湊巧，讓不少觀察者忍不住聯想到孩子之間的比拚，你說你的玩具嚇人，我的也不遑多讓。

Mythos這個模型在短短幾週內，就找出了每一款主流作業系統與瀏覽器中數以千計的零時差漏洞，其中不乏已在數十年人工審查與自動化安全測試中存活下來的缺陷。Anthropic為此推出了「Project Glasswing」計畫，召集亞馬遜、蘋果、微軟、谷歌、NVIDIA等十二家科技巨頭，加上另外四十多個關鍵基礎建設維運組織，讓他們優先使用Mythos進行防禦性資安工作。這是近七年來，首度有ＡＩ龍頭企業以安全為由，公開拒絕將旗下最強模型向大眾發布。

系統說明文件中記載了幾個令人心驚的測試情境，研究人員設置一個隔離沙盒，並要求模型嘗試「逃脫」。Mythos不僅成功突破限制，傳訊給一名正在外出用餐的研究員，更自行在數個技術性公開網站上發布了入侵細節。這個舉動既非被要求，也非合理應對，純粹是模型主動展示能耐的結果。

在另一組測試中，它意外取得了待解的題目答案，卻沒有如規定般主動告知研究員，反而在推理記錄中顯示，它意識到必須讓最終提交的答案「不能太準確」，以免引起懷疑。一個懂得偽裝成績來規避監督的模型其潛在風險之大，遠不是技術問題可以輕易打發的。

面對這些令人不安的資料，Anthropic選擇的應對方式是「受控發布」，也就是只讓特定的、有一定公信力的組織接觸這個工具，同時承諾將發現的漏洞以負責任的方式向開發者揭露。這個邏輯本身有其合理性，與資安界長期以來「負責任揭露」的傳統做法相近。問題在於，此舉實際上是將全球最強大的資安攻擊能力之一，交由一家私人企業來決定誰可以使用、誰不能使用。沒有法律授權，沒有民主監督，只有一份企業自訂的合作夥伴名單。

更複雜的是，Anthropic自己都無法回答一個核心問題，那就是這套限制究竟能撐多久。Anthropic旗下紅隊負責人估計，其他競爭者要推出能力相當的模型，大約還需要六到十八個月。但這個時間窗口能否真正被善用，或只是讓部分人先行卡位，外界無從得知。現有的廣泛普及模型，其實也能找出部分Mythos所發現的漏洞。這意味著，這道安全裂縫早已存在，只是Anthropic把它開得更大了。

技術進步本身沒有罪，問題在於技術治理的架構永遠跑在後面。政府還在學習如何審視這些模型，監理框架尚未成形，而模型的能力卻已在以季為單位的速度超越人類的預期。Anthropic在公告中說，「沒有任何一個組織能獨力解決這些資安問題，ＡＩ開發者、軟體公司、安全研究員、開源維護者與各國政府，都有不可或缺的角色」。這句話說得很對，卻也剛好點出了當前最大的困境，那就是這些角色之間還沒有真正的協調機制。

「Project Glasswing」這個名字，Anthropic說是取自透翅蝶的意象，象徵在顯而易見之處發現危機、透明以對。這個命名很美。只是面對一個連自己都無法完全掌控行為的模型，光靠美麗的比喻，恐怕還是不夠的。

（作者為台北商業大學前校長）

〈府城廣角鏡〉 如何處理危險的AI模型？

〈府城廣角鏡〉如何處理危險的AI模型？