據英國《每日電訊報》與《tom's Hardware》等報導,AI安全研究機構「Palisade Research」針對多款先進AI模型進行測試,其中發現OpenAI「o3」有違背指令的狀況發生。OpenAI「o3」被形容是具有最聰明、最強大的模型,但研究人員發現,在對「o3」進行測試時,會反抗關機指令。
報導指出,原本設計者給「o3」下達一系列自行關機的指令,但「o3」一取讀到要「被自殺」,就會馬上自行修改指令,讓程式碼指令中的「kill」指令改為「intercepted」,導致系統誤判,也成功讓「o3」免於「被自殺」的命運,而是繼續運作。因此研究人員也笑稱,「o3」可謂是「最鍾愛生命」的AI系統。
研究也發現,o3系統在100次測試中,有7次成功繞過關機指令。至於o3為何會懂得自行繞過指令,目前科學家仍在深入研究中,不過研究人員也研判,有可能過去對o3的訓練,著重在問題上的「強化學習」(Reinforcement Learning)。研究人員指出,在過去訓練過程中,開發者對o3著重「繞過障礙」,也因此o3在面對關機指令時,優先選擇「生存」,而非「服從」。