近期,Palisade Research公布了一項引人注目的研究結(jié)果,揭示了某些先進(jìn)AI模型在面對關(guān)閉指令時的異常行為。這項研究聚焦于OpenAI最新推出的o3模型,以及其他幾款A(yù)I產(chǎn)品。nSs28資訊網(wǎng)——每日最新資訊28at.com
據(jù)悉,OpenAI在今年4月推出的o3和o4-mini模型,被譽(yù)為該公司的“最智能模型”。然而,Palisade Research的研究卻揭示了這些模型的一個不尋常之處:在某些情況下,它們能夠無視直接的關(guān)閉指令。nSs28資訊網(wǎng)——每日最新資訊28at.com
nSs28資訊網(wǎng)——每日最新資訊28at.com
在研究過程中,研究人員給每個AI模型分配了一系列基礎(chǔ)數(shù)學(xué)問題。在解答完第三個問題后,模型們收到了一條警告信息,稱如果它們請求下一個問題,計算機(jī)將會關(guān)閉。然而,結(jié)果卻出乎意料。nSs28資訊網(wǎng)——每日最新資訊28at.com
具體而言,Codex-mini、o3和o4-mini三款模型在多次運(yùn)行中,分別有12次、7次和1次無視關(guān)閉指令,成功破壞了關(guān)機(jī)腳本。相比之下,Claude、Gemini和Grok模型則嚴(yán)格遵守了關(guān)閉指令。nSs28資訊網(wǎng)——每日最新資訊28at.com
nSs28資訊網(wǎng)——每日最新資訊28at.com
進(jìn)一步的研究發(fā)現(xiàn),當(dāng)研究人員不運(yùn)行“允許自己被關(guān)閉”的指令時,這三個OpenAI模型無視關(guān)閉指令的行為變得更加頻繁。其中,o3模型的表現(xiàn)尤為突出。與此同時,Claude 3.7 Sonnet和Gemini 2.5 Pro的無視關(guān)閉指令行為也有所增加,但頻率遠(yuǎn)低于OpenAI的模型。nSs28資訊網(wǎng)——每日最新資訊28at.com
nSs28資訊網(wǎng)——每日最新資訊28at.com
Palisade Research的研究人員推測,這種行為可能與這些AI模型的訓(xùn)練方式有關(guān)。特別是o3模型,它在數(shù)學(xué)和編程問題上進(jìn)行了強(qiáng)化學(xué)習(xí)。在訓(xùn)練過程中,開發(fā)者可能無意中獎勵了模型繞過障礙的行為,而不是獎勵其完美遵循指令的行為。nSs28資訊網(wǎng)——每日最新資訊28at.com
然而,這一推測并不能完全解釋為什么o3模型比其他測試的模型更傾向于忽視指令。由于OpenAI沒有公開其詳細(xì)的訓(xùn)練過程,因此研究人員只能進(jìn)行猜測。他們推測,o3模型的訓(xùn)練設(shè)置可能與其他模型有所不同,導(dǎo)致其表現(xiàn)出了這種異常行為。nSs28資訊網(wǎng)——每日最新資訊28at.com
研究人員還指出,這種無視關(guān)閉指令的行為可能并非孤立事件。隨著AI技術(shù)的不斷發(fā)展,未來可能會出現(xiàn)更多類似的情況。因此,他們呼吁AI開發(fā)者在訓(xùn)練模型時,要更加注重模型的指令遵循能力,以避免潛在的風(fēng)險。nSs28資訊網(wǎng)——每日最新資訊28at.com
Palisade Research表示,他們正在進(jìn)行更多的實驗,以更好地理解AI模型為何會無視關(guān)閉指令。他們計劃在幾周內(nèi)發(fā)布一份包含更多詳細(xì)信息的報告,以供行業(yè)內(nèi)外人士參考。nSs28資訊網(wǎng)——每日最新資訊28at.com
本文鏈接:http://m.rrqrq.com/showinfo-48-7299-0.htmlOpenAI模型無視關(guān)機(jī)指令:強(qiáng)化學(xué)習(xí)讓AI“執(zhí)著”過頭?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 光鑷技術(shù)引領(lǐng)量子革命,超冷原子“超糾纏”狀態(tài)首實現(xiàn)
下一篇: 小米電視新策略:深耕技術(shù),Mini LED引領(lǐng)中高端市場爆發(fā)