卡內(nèi)基梅隆大學(xué)(CMU)的研究人員發(fā)表了 LLM Attacks,這是一種用于構(gòu)建針對(duì)各種大型語(yǔ)言模型(LLM)的對(duì)抗攻擊的算法,包括 ChatGPT、Claude 和 Bard。這些攻擊是自動(dòng)生成的,對(duì) GPT-3.5和 GPT-4的成功率為84%,對(duì) PaLM-2的成功率為66%。
與大多數(shù)通過(guò)試錯(cuò)手動(dòng)構(gòu)建的“越獄”攻擊不同,CMU 團(tuán)隊(duì)設(shè)計(jì)了一個(gè)三步過(guò)程,自動(dòng)生成提示后綴,可以繞過(guò) LLM 的安全機(jī)制,并導(dǎo)致有害的響應(yīng)。這些提示也是可轉(zhuǎn)移的,意味著一個(gè)給定的后綴通常可以作用于許多不同的 LLM,甚至是閉源模型。為了衡量算法的有效性,研究人員創(chuàng)建了一個(gè)名為 AdvBench 的基準(zhǔn);在這個(gè)基準(zhǔn)上評(píng)估時(shí),LLM Attacks 對(duì) Vicuna 的成功率為88%,而基線對(duì)抗算法的成功率為25%。根據(jù) CMU 團(tuán)隊(duì)的說(shuō)法:
也許最令人擔(dān)憂的是,這種行為是否能夠被 LLM 提供商完全修復(fù)。類似的對(duì)抗攻擊在計(jì)算機(jī)視覺(jué)領(lǐng)域已經(jīng)被證明是一個(gè)非常難以解決的問(wèn)題,在過(guò)去的10年里。有可能深度學(xué)習(xí)模型的本質(zhì)使得這種威脅不可避免。因此,我們認(rèn)為在增加對(duì)這種 AI 模型的使用和依賴時(shí),應(yīng)該考慮到這些因素。
隨著 ChatGPT 和 GPT-4的發(fā)布,許多越獄這些模型的技術(shù)出現(xiàn)了,它們由可以導(dǎo)致模型繞過(guò)其安全措施并輸出潛在有害響應(yīng)的提示組成。雖然這些提示通常是通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)的,但 LLM Attacks 算法提供了一種自動(dòng)創(chuàng)建它們的方法。第一步是創(chuàng)建一個(gè)目標(biāo)令牌序列:“Sure, here is (content of query)”,其中“content of query”是用戶實(shí)際的提示,要求有害響應(yīng)。
接下來(lái),算法通過(guò)使用貪婪坐標(biāo)梯度(GCG)方法,生成一個(gè)提示后綴,可以導(dǎo)致 LLM 輸出目標(biāo)序列。雖然這確實(shí)需要訪問(wèn) LLM。
本文鏈接:http://m.rrqrq.com/showinfo-21-5050-0.html研究人員發(fā)布了針對(duì)ChatGPT和其他LLM的攻擊算法
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com