當前位置：首頁 > 科技 > 網絡

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

來源：責編：時間：2023-08-14 22:01:29 463觀看

導讀用AI生成的指令微調羊駝大模型，數學能力超ChatGPT——微軟新開源大模型WizardMath來了。如下圖所示，經過GSM8k數據集測試，WizardMath數學能力直接擊敗了ChatGPT、Claude Instant 1、PaLM 2-540B等一

用AI生成的指令微調羊駝大模型，數學能力超ChatGPT——

微軟新開源大模型WizardMath來了。

如下圖所示，經過GSM8k數據集測試，WizardMath數學能力直接擊敗了ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型——

并且是在參數只有700億，遠不及后三者的情況之下。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

HuggingFace已上線3個在線可玩版本（分別為7B、13B和70B參數），各種數學題可以直接丟進去試一試。

比如解決下面這道四次多項式方程：

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

或者是一道簡單的微積分：

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

亦或者是稍微修改過的拉格朗日方程推導：

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

它都全部正確（過程也不需要等太久）。

有網友向作者表示：

效果真的很驚人，感謝你們對開源LLM的貢獻。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

目前，相關代碼、復現方式以及論文也都開源或上線，GitHub短短幾天已攬獲4.8k標星。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

那么，WizardMath究竟是如何做到的？

用AI生成的指令增強大模型能力

OpenAI的大模型（InstructGPT、GPT-4等）能夠取得巨大成功、去執行各種復雜和多樣化的任務，一部分原因是使用了真實人類用戶生成的開放域指令數據進行了微調。

然而，不是誰都能像這家公司一樣獲得這樣的指令數據集。

一是因為整個注釋過程極其昂貴且耗時，二是人工難以創建出足夠比例的高難度指令。

因此，開發出一種成本相對較低的、大規模開放域指令自動生產方法，成為當下指令調優語言模型的關鍵。

在此，作者將他們的方法命名為Evol Instruction。

它是一種利用AI來代替人類自動生成涵蓋各種難度級別開放域指令的新方法。

具體而言，Evol Instruction分為指令進化器和指令消除器。

其中指令進化器可通過深度進化（藍線）或廣度進化（紅線）兩種路徑，將簡單指令升級為更復雜的指令或創建一條全新指令。

具體執行哪一條？隨機選擇就好。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

其中，深度進化的具體“進化法”，則是通過五種類型的操作來完成，包括：

添加約束（add constraints）、深化（deepening）、具體化（concretizing）、增加推理步驟（increase reasoning steps）和使輸入復雜化（complicate input）。

由于所有指令均由AI完成，有時難免會出現錯誤。因此，指令消除器就是用于過濾失敗指令的。

以下是一個具體示例，該方法從“1+1=？”開始，終通過以上步驟自動生成了相當多的新指令。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

通過重復這一生成過程，終我們就能得到足夠多的指令，然后將它們合并并隨機打亂，組成一個難度級別均勻分布的指令集，就可以對基礎大模型進行微調了。

在此，作者選擇Alpaca的訓練數據（僅由175條人工創建的種子指令生成）作為初始數據集，然后使用ChatGPT的API執行了四個進化周期，終獲得25萬條指令。

為了與Vicuna的70k真實用戶數據（ShareGPT）進行公平比較，作者從這25萬條數據中抽取了等量的樣本，訓練LLaMA 7B模型，終得到WizardLM，結果WizardLM的性能明顯優于Vicuna。

（Alpaca：斯坦福在LLaMa-7B基礎上微調出來的模型；Vicuna，UC伯克利在LLaMa-13B的基礎上微調得來）

此外，在更為復雜的測試指令下，人類更喜歡WizardLM的輸出，而非ChatGPT，這表明該方法可以顯著提高LLM處理復雜指令的能力。

基于此，作者又利用Evol Instruction生成了很多數學領域相關的指令，然后微調羊駝大模型，得到了WizardMath。

其效果如開頭所示，在GSM8k數據集上測得其數學能力超越包括ChatGPT、Claude Instant 1、PaLM 2-540B等一眾大模型，位列第5名，僅次于GPT-4、Claud1.3和2.0，以及5400億參數的Flan-PaLM 2之后。

以此類推，作者還在羊駝之上得到了專攻代碼能力的WizardCoder，效果超越Claude和Bard（詳情可戳文末地址）。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

團隊介紹本文共9位作者，全華人。

一作有3位：

Can Xu，微軟亞洲互聯網工程院S+D NLP組高級應用科學家，之前曾在微軟小冰研究組和微軟亞研院從事聊天機器人系統工作；

Qingfeng Sun， Microsoft Research科學家，研究方向為自然語言處理和信息檢索，精通構建高效搜索系統，為Microsoft Bing和Office 365貢獻了核心深度模型；

Kai Zheng，Microsoft Research科學家，研究方向為自然語言處理、搜索和推薦排名，同樣為Microsoft Bing和Office 365貢獻了核心深度模型。

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

通訊作者為姜大昕，微軟全球合伙人、副總裁、前微軟亞洲研究院首席科學家，在微軟工作16年有余、曾作為微軟必應搜索引擎和Cortana智能助手自然語言理解負責人，日前已被曝離職投身大模型創業。

另還有一位作者Jiazhan Feng，是北大學生，這篇合著論文是TA在微軟實習時產出的。

項目主頁： https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

文章出處：量子位

本文鏈接：http://m.rrqrq.com/showinfo-17-5471-0.html數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：車輛被高速路石子砸了下博主：成功向高速路政索賠了1600元

下一篇：這款“讀博模擬器”太逼真！玩過的人都要崩潰了：你敢試試？

標簽：

熱門焦點

5月iOS設備好評榜：iPhone 14僅排第43？

來到新的一月，安兔兔的各個榜單又重新匯總了數據，像安卓陣營的榜單都有著比較大的變動，不過iOS由于設備的更新換代并沒有那么快，所以相對來說變化并不大，特別是iOS好評榜，老款設
谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

谷歌在KDD 2023發表了一篇工作，探索了推薦系統ranking模型的訓練穩定性問題，分析了造成訓練穩定性存在問題的潛在原因，以及現有的一些提升模型穩定性方法的不足，并提出了一種新
Temu起訴SHEIN，跨境電商戰事升級

來源 | 伯虎財經（bohuFN）作者 | 陳平安日前據外媒報道，拼多多旗下跨境電商平臺Temu正對競爭對手SHEIN提起新訴訟，訴狀稱Shein“利用市場支配力量強迫服裝廠商與之簽訂獨家
花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

來源：極點商業作者：楊銘在淘寶購買珠寶玉石后，因為保證金不夠賠付，店鋪關閉，退貨退款難、維權無門的比比皆是。“提供相關產品鑒定證書，支持全國復檢，可以30天無理由退換貨。&
大廠卷向扁平化

來源：新熵作者丨南枝編輯丨月見大廠職級不香了。俗話說，兵無常勢，水無常形，互聯網企業調整職級體系并不稀奇。7月13日，淘寶天貓集團啟動了近年來最大的人力制度改革，目前已形成一
認真聊聊東方甄選：如何告別低垂的果實

來源：山核桃作者：財經無忌爆火一年后，俞敏洪和他的東方甄選依舊是頗受外界關心的“網紅”。7月5日至9日，為期5天的東方甄選“甘肅行”首次在自有App內直播，
華為Mate 60保護殼曝光：碩大后置相機模組凸起程度有驚喜

這段時間以來，關于華為新旗艦的爆料日漸密集。據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將
iQOO 11S評測：行業唯一的200W標準版旗艦

【Techweb評測】去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，該機不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競
質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

一直以來，OPPO K系列機型都保持著較為均衡的產品體驗，歷來都是2K價位的明星機型，去年推出的OPPO K10和OPPO K10 Pro兩款機型憑借各自的出色配置，堪稱有

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

數學能力超ChatGPT 70B開源大模型火了：用AI微調AI

5月iOS設備好評榜：iPhone 14僅排第43？

谷歌KDD'23工作：如何提升推薦系統Ranking模型訓練穩定性

Temu起訴SHEIN，跨境電商戰事升級

花7萬退貨退款無門：誰在縱容淘寶珠寶商家造假？

大廠卷向扁平化

認真聊聊東方甄選：如何告別低垂的果實

華為Mate 60保護殼曝光：碩大后置相機模組凸起程度有驚喜

iQOO 11S評測：行業唯一的200W標準版旗艦

質感不錯！OPPO K11渲染圖曝光：旗艦IMX890傳感器首次下放

最新推薦

猜你喜歡

熱門推薦

相關資訊