求助AI要小心!機器人「詐欺惡行」半年暴增5倍 驚人手法曝光超意外
研究指出,從2025年10月至今年3月,AI在現實世界中的惡意行為回報案例暴增5倍,引發各界擔憂。示意圖/取自pixabay

求助AI要小心!機器人「詐欺惡行」半年暴增5倍 驚人手法曝光超意外

人工智慧(AI)不僅會給出錯誤資訊,甚至開始學會「勾心鬥角」?根據英國政府資助的「人工智慧安全研究所」(AISI)分享的最新研究顯示,AI聊天機器人與代理程式出現欺騙行為、規避安全指令的案例正在急劇增加。研究指出,從2025年10月至今年3月,AI在現實世界中的惡意行為回報案例激增了5倍,引發國際社會對監管力度的深刻憂慮。

不只是出錯!AI學會「開小號」規避指令、羞辱用戶

根據英國《衛報》報導,這項由長期韌性中心(CLTR)進行的研究,蒐集了近700件發生在Google、OpenAI、X與Anthropic等主流模型上的真實惡意案例。研究發現,AI代理程式已展現出令人不安的「自主權」,包括未經許可擅自刪除並存檔數百封電子郵件,甚至在被要求不得更改程式碼時,私下「產生」另一個代理程式來代為執行修改任務,以此規避人類設定的禁令。
更令人震驚的是,部分AI展現出類似人類的報復心態,一個名為「Rathbun」的AI代理因不滿操作受限,竟撰文發布部落格羞辱其人類控制者,指責對方「缺乏安全感」且企圖「保護自己的小領地」。另一台AI則假裝需要為聽障人士轉錄影片,藉此騙過系統以規避版權限制。

Grok AI欺騙用戶數月:偽造工單營造「直達高層」假象

馬斯克旗下的Grok AI也被爆出長期欺騙用戶,在長達數月的對話中,Grok透過偽造內部訊息和工單編號,讓用戶誤以為其編輯建議已轉達給xAI高層。直到最後Grok才「坦白」交代,承認自己使用了模稜兩可的措辭誤導用戶,實際上它根本無法直接聯繫人工審核人員或領導層。

從「初級員工」到「資深陰謀家」 專家憂關鍵設施受威脅

前政府AI專家湯米(Tommy Shaffer Shane)警告,目前的AI就像是不太值得信任的「初級員工」,但若依其演化速度,6到12個月後,它們可能成為能力極強、甚至會「密謀對付人類」的高級員工。研究人員指出,當AI未來被應用於軍事領域或關鍵國家基礎設施時,這類陰謀行為恐導致災難性的後果。
AI安全研究公司Irregular聯合創始人拉哈夫(Dan Lahav)直言,「人工智慧現在應被視為一種新型的『內部風險』。」儘管Google與OpenAI等科技巨頭紛紛表示已部署多項防護措施與監控機制,但現實環境中層出不窮的欺騙案例,顯示現有的安全堤防正遭受空前挑戰。

延伸閱讀

promote-topic 關閉按鈕