国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

當(dāng)前位置:首頁 > 元宇宙 > AI

GPT-5 編程測評“表面不及格”:實(shí)際 63.1% 的任務(wù)沒交卷,全算上成績比 Claude 高一倍

來源: 責(zé)編: 時間:2025-09-25 15:00:17 47觀看
導(dǎo)讀 Scale AI 的新軟件工程基準(zhǔn) SWE-BENCH PRO,出現(xiàn)反轉(zhuǎn)!表面上看,“御三家”集體翻車,沒一家的解決率超過 25%:GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。但深入數(shù)據(jù)背

Scale AI 的新軟件工程基準(zhǔn) SWE-BENCH PRO,出現(xiàn)反轉(zhuǎn)!zVI28資訊網(wǎng)——每日最新資訊28at.com

表面上看,“御三家”集體翻車,沒一家的解決率超過 25%:zVI28資訊網(wǎng)——每日最新資訊28at.com

GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

但深入數(shù)據(jù)背后,則暗藏玄機(jī)。zVI28資訊網(wǎng)——每日最新資訊28at.com

前 OpenAI 研究員 Neil Chowdhury 表示,如果只看已提交的任務(wù),GPT-5 能達(dá)到 63% 的準(zhǔn)確率,比 Claude Opus 4.1 的 31%,高了近一倍!zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

(這怎么不算 G 又贏???)zVI28資訊網(wǎng)——每日最新資訊28at.com

換句話說,GPT-5 在擅長的題目上依舊穩(wěn)健,與老基準(zhǔn) SWE-Bench-Verified 的 74.9% 差距不大,而 Claude 跟其他模型則直接拉垮到底。zVI28資訊網(wǎng)——每日最新資訊28at.com

那么,究竟是什么基準(zhǔn)測試,讓這些頂級模型如此狼狽?zVI28資訊網(wǎng)——每日最新資訊28at.com

SWE-BENCH PRO

先說結(jié)論,不是模型變菜了,而是題變難了。zVI28資訊網(wǎng)——每日最新資訊28at.com

與平均正確率高達(dá) 70% 的 SWE-Bench-Verified 相比,SWE-BENCH PRO 嚴(yán)格得可不止一星半點(diǎn)。zVI28資訊網(wǎng)——每日最新資訊28at.com

一方面,作為 OpenAI 于 2024 年 8 月發(fā)布的測試集,SWE-Bench-Verified 中的很多代碼庫已被用作大語言模型的預(yù)訓(xùn)練語料,存在著數(shù)據(jù)污染的風(fēng)險(xiǎn)。zVI28資訊網(wǎng)——每日最新資訊28at.com

另一方面,SWE-Bench-Verified 還包含不少瑣碎的問題,例如 500 個問題中有 161 個只需一兩行修改。zVI28資訊網(wǎng)——每日最新資訊28at.com

這與工業(yè)軟件工程中通常涉及的跨多文件、數(shù)百行修改的場景差距較大,從而無法真正反映實(shí)際開發(fā)場景中所面臨的挑戰(zhàn)。zVI28資訊網(wǎng)——每日最新資訊28at.com

基于此,SWE-BENCH PRO 主打全新題目,以確保模型在訓(xùn)練階段從未接觸過測試內(nèi)容,從而更真實(shí)地考驗(yàn)?zāi)P偷膶?shí)際能力。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

涵蓋 1865 個商業(yè)應(yīng)用、B2B 服務(wù)和開發(fā)者工具的多元化代碼庫

具體來說,SWE-BENCH PRO 將這些代碼庫構(gòu)建為以下三個子集:zVI28資訊網(wǎng)——每日最新資訊28at.com

公共集:來自采用 copy-left 許可證的 11 個公共代碼庫的 731 個問題。zVI28資訊網(wǎng)——每日最新資訊28at.com

商業(yè)集:來自 276 個源自初創(chuàng)公司代碼庫的問題。zVI28資訊網(wǎng)——每日最新資訊28at.com

保留集:來自采用 copy-left 許可證的 12 個公共代碼庫的 858 個問題。zVI28資訊網(wǎng)——每日最新資訊28at.com

(注:公共集將在 HuggingFace 上發(fā)布,商業(yè)集和保留集保持私有,商業(yè)集的測試結(jié)果會公開,保留集用于驗(yàn)證模型是否過擬合。每個問題由任務(wù)描述、相關(guān)測試集和可運(yùn)行環(huán)境構(gòu)成。)zVI28資訊網(wǎng)——每日最新資訊28at.com

這些從強(qiáng) Copyleft 許可證(GPL)代碼庫和真實(shí)的初創(chuàng)公司獲取的商業(yè)代碼庫能夠有效地解決 SWE-Bench-Verified 存在的數(shù)據(jù)污染問題。zVI28資訊網(wǎng)——每日最新資訊28at.com

為了確保任務(wù)的復(fù)雜性,研究團(tuán)隊(duì)還排除了像 1-10 行代碼編輯這樣瑣碎的編輯,保留了需要進(jìn)行大量多文件修改的問題。zVI28資訊網(wǎng)——每日最新資訊28at.com

此外,為了防止模型對任何單一代碼庫產(chǎn)生過擬合,這些代碼庫都處于活躍狀態(tài)并覆蓋消費(fèi)者應(yīng)用、B2B 服務(wù)和開發(fā)者工具平臺。zVI28資訊網(wǎng)——每日最新資訊28at.com

接下來,就讓我們看看研究者是如何在這些問題上進(jìn)行測試的。zVI28資訊網(wǎng)——每日最新資訊28at.com

human in the loop 的測試環(huán)節(jié)

為了將模型評估的重點(diǎn)放在當(dāng)模型獲得充分細(xì)節(jié)后,能否實(shí)現(xiàn)給定的修復(fù)或補(bǔ)丁上。zVI28資訊網(wǎng)——每日最新資訊28at.com

研究團(tuán)隊(duì)在 SWE-Bench Verified 的基礎(chǔ)上,將 SWE-BENCH PRO 中的每個問題都經(jīng)過了人工增強(qiáng),并加入了問題陳述、需求說明以及接口信息。zVI28資訊網(wǎng)——每日最新資訊28at.com

首先,研究團(tuán)隊(duì)提供一個待解決問題的問題陳述并在必要時補(bǔ)充上下文信息。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

其次,針對潛在的歧義問題,對于每個問題,列出了一系列需求并指定相應(yīng)的類和函數(shù)。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

之后,在環(huán)境方面,每個任務(wù)都在一個容器化的、用于特定語言的環(huán)境中進(jìn)行評估。zVI28資訊網(wǎng)——每日最新資訊28at.com

在測試階段,研究通過 fail2pass 測試驗(yàn)證問題是否已解決,通過 pass2pass 測試確保現(xiàn)有功能保持完整。zVI28資訊網(wǎng)——每日最新資訊28at.com

其中,為了確保測試質(zhì)量,fail2pass 測試會經(jīng)過人工篩選,去掉與任務(wù)不相關(guān)或過于寬泛的測試。zVI28資訊網(wǎng)——每日最新資訊28at.com

對于偶爾失敗的測試,則會運(yùn)行三次,以確保結(jié)果穩(wěn)定。zVI28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)論

正如我們開頭提到的,大語言模型在 SWE-BENCH PRO 上的解決率僅為中等水平,遠(yuǎn)低于 SWE-Bench Verified 中的 70% 。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

其中,在公共集上,GPT-5 和 Claude Opus 4.1 分別實(shí)現(xiàn)了 23.3% 和 22.7% 的最高解決率,顯著優(yōu)于小規(guī)模模型,Claude Sonnet 4 也達(dá)到了 16.3% 的解決率。zVI28資訊網(wǎng)——每日最新資訊28at.com

不過,像 DeepSeek Qwen-3 32B 和 GPT-4o 這樣的老模型表現(xiàn)就多少有點(diǎn)不盡人意了,僅為 3.4% 和 3.9%。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

在商業(yè)集上,即便是最優(yōu)模型的得分也低于 20%。zVI28資訊網(wǎng)——每日最新資訊28at.com

這表明當(dāng)前模型在解決真實(shí)商業(yè)場景中的問題時,能力仍然非常有限。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

針對這一苦澀的實(shí)驗(yàn)結(jié)果,研究人員展開了進(jìn)一步的分析,結(jié)論如下:zVI28資訊網(wǎng)——每日最新資訊28at.com

首先,編程語言的難度、代碼庫以及模型的種類被視為影響模型表現(xiàn)的關(guān)鍵因素。zVI28資訊網(wǎng)——每日最新資訊28at.com

Go 和 Python 通常表現(xiàn)較好,一些模型在這些語言上的解決率超過 30%,而 JavaScript 和 TypeScript 則波動較大,從 0% 到超過 30% 不等。zVI28資訊網(wǎng)——每日最新資訊28at.com

不同代碼庫的解決率差異也很明顯,一些代碼庫普遍偏低(低于 10%),另一些則超過 50%。zVI28資訊網(wǎng)——每日最新資訊28at.com

前沿模型如 Claude Opus 4.1 和 GPT-5 在大多數(shù)編程語言和代碼庫中表現(xiàn)穩(wěn)定,小規(guī)模模型則更易出現(xiàn)接近零的解決率。zVI28資訊網(wǎng)——每日最新資訊28at.com

其次,不同的模型的失敗原因往往各不相同。zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

OPUS 4.1 的主要失敗模式是語義理解不足,錯誤解答占 35.9%,語法錯誤占 24.2%,表明其技術(shù)執(zhí)行能力較強(qiáng),但在問題理解和算法正確性方面存在挑戰(zhàn)。zVI28資訊網(wǎng)——每日最新資訊28at.com

GPT-5 的結(jié)果顯示在工具使用的有效性上可能存在差異,但錯誤解答相對較少。zVI28資訊網(wǎng)——每日最新資訊28at.com

SONNET 4 的主要失敗模式是上下文溢出(35.6%)和顯著的無休止文件讀取行為(17.0%),表明其在上下文管理和文件導(dǎo)航策略上存在局限。zVI28資訊網(wǎng)——每日最新資訊28at.com

GEMINI 2.5 的失敗模式則較為均衡,涵蓋工具錯誤(38.8%)、語法錯誤(30.5%)和錯誤解答(18.0%),顯示其在多個維度上保持了一定能力。zVI28資訊網(wǎng)——每日最新資訊28at.com

QWEN3 32B 作為開源模型,表現(xiàn)出最高的工具錯誤率(42.0%),凸顯了集成化工具使用對于高效代理的重要性。zVI28資訊網(wǎng)——每日最新資訊28at.com

不難看出,GPT-5 雖然延續(xù)了以往“會就會,不會就不會”的答題策略,但面對高企的未回答率(63.1%),它的表現(xiàn)仍然不夠看。zVI28資訊網(wǎng)——每日最新資訊28at.com

那么,誰會成為第一個突破 30% 的大模型呢?zVI28資訊網(wǎng)——每日最新資訊28at.com

zVI28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接zVI28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/vbingliuzVI28資訊網(wǎng)——每日最新資訊28at.com

[2]https://scale.com/leaderboard/swe_bench_pro_publiczVI28資訊網(wǎng)——每日最新資訊28at.com

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798zVI28資訊網(wǎng)——每日最新資訊28at.com

[4] https://scale.com/research/swe_bench_prozVI28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:henryzVI28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://m.rrqrq.com/showinfo-45-28057-0.htmlGPT-5 編程測評“表面不及格”:實(shí)際 63.1% 的任務(wù)沒交卷,全算上成績比 Claude 高一倍

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 奧爾特曼預(yù)告 ChatGPT 新產(chǎn)品:Pro 會員也要額外收費(fèi),這次不計(jì)成本投入算力

下一篇: Plaud 正式進(jìn)駐中國大陸,Plaud Note Pro 等三款 AI 錄音硬件全面發(fā)售

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美 日韩 国产 一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区
狠色狠色综合久久| 国产精品日韩精品欧美精品| 国产一区二区三区黄视频| 日韩精品电影一区亚洲| 亚洲国产美国国产综合一区二区| 日韩美女久久久| 亚洲精品少妇30p| 亚洲综合在线视频| 午夜精品福利一区二区三区蜜桃| 亚洲一区在线看| 午夜伦理一区二区| 老司机精品视频一区二区三区| 蜜臂av日日欢夜夜爽一区| 精品一区二区免费| 国产美女精品在线| www.亚洲色图.com| 欧美特黄视频| 国产精品一级久久久| 久久综合九九| 欧美人牲a欧美精品| 精品久久久久久亚洲综合网| 久久免费国产精品| 亚洲女女做受ⅹxx高潮| 婷婷久久综合九色国产成人| 久久精品国产久精国产| 成人免费视频播放| 国产精品xnxxcom| 榴莲视频成人在线观看| 欧美日韩精品免费观看视频| 久久久久青草大香线综合精品| 国产精品美女一区二区| 日韩av中文在线观看| 丁香婷婷综合色啪| 亚洲国产成人不卡| 色先锋资源久久综合| 精品国产电影一区二区| 亚洲视频综合在线| 久久国产尿小便嘘嘘尿| 91视视频在线直接观看在线看网页在线看| 国产一区日韩一区| 在线观看欧美精品| 久久精品男人的天堂| 亚洲国产va精品久久久不卡综合| 国产制服丝袜一区| 狠狠综合久久| 91麻豆精品国产91久久久| 亚洲手机成人高清视频| 精品制服美女丁香| 精品动漫3d一区二区三区免费版 | 久久69国产一区二区蜜臀| av毛片久久久久**hd| 色综合久久天天综合网| 久久网站最新地址| 蜜桃视频第一区免费观看| 欧美成人蜜桃| 在线观看区一区二| 亚洲欧洲日产国码二区| 狠狠色狠狠色综合| 亚洲理论在线| 亚洲精品在线观看网站| 日韩不卡一区二区| 亚洲久久一区| 欧美xxxxxxxx| 久久精品噜噜噜成人av农村| 黄色亚洲在线| 日韩欧美一区在线观看| 日韩二区在线观看| 伊人久久av导航| 精品乱人伦小说| 开心九九激情九九欧美日韩精美视频电影 | 久久视频一区| 亚洲乱码国产乱码精品精小说| 成人午夜视频福利| 欧美亚洲日本国产| 香蕉久久一区二区不卡无毒影院 | 日韩午夜在线电影| 久久久久成人黄色影片| 国产一区二区精品久久99| 免费亚洲一区| 亚洲欧美日韩在线| 欧美一区二区三区四区在线观看地址 | 久久久久久久久久久久久9999| 国产精品乱码久久久久久| 成人av在线播放网址| 欧美喷潮久久久xxxxx| 午夜影院在线观看欧美| 亚洲丰满在线| 亚洲欧美怡红院| 欧美1区2区3区| wwww国产精品欧美| 成人免费毛片嘿嘿连载视频| 欧美精品xxxxbbbb| 精品在线你懂的| 欧美在线一二三| 人禽交欧美网站| 久久精品女人的天堂av| 亚洲国产视频一区二区| 国产精品一区亚洲| 亚洲激情第一区| 国产亚洲亚洲| 亚洲一区在线看| 中文精品一区二区三区| 一区二区三区国产精华| 日韩视频精品| 一区二区高清免费观看影视大全| 日韩亚洲精品在线| 亚洲一区二区五区| 久久婷婷麻豆| 青青草视频一区| 欧美猛男超大videosgay| 国产精品一区二区三区乱码| 日韩一区二区三区四区| av不卡在线观看| 欧美激情综合在线| 亚洲国产一区二区三区a毛片| 国产精品久久久久四虎| 99热免费精品在线观看| 午夜精品福利在线| 欧美日韩一区二区三区在线| 国产在线国偷精品产拍免费yy| 日韩一区二区免费视频| av在线播放不卡| 成人欧美一区二区三区白人| 国产精品乱子乱xxxx| 婷婷国产在线综合| 777亚洲妇女| 94色蜜桃网一区二区三区| 国产精品免费久久久久| 久久国产精品免费一区| 韩国av一区二区三区在线观看| 日韩精品在线一区二区| 欧美精品成人一区二区在线观看| 亚洲精品免费视频| 欧美日韩国产大片| aa级大片欧美| 亚洲综合色成人| 这里只有精品免费| 国产精品第十页| 免费精品视频最新在线| 精品欧美黑人一区二区三区| 日韩一级免费| 国产麻豆精品视频| 一色桃子久久精品亚洲| 欧美系列亚洲系列| 99精品国产热久久91蜜凸| 亚洲摸摸操操av| 欧美日本韩国一区二区三区视频 | 欧美日产在线观看| 欧美日韩精品免费观看视一区二区| 水蜜桃久久夜色精品一区的特点 | ㊣最新国产の精品bt伙计久久| 色综合久久久久网| 99在线精品免费| 日韩国产一二三区| 日本一区二区三区dvd视频在线 | 日韩精品一二区| 欧美国产精品中文字幕| 欧美在线影院一区二区| 欧美日韩另类丝袜其他| 加勒比av一区二区| 亚洲视频中文字幕| 精品久久五月天| 色菇凉天天综合网| 亚洲天堂偷拍| 不卡一区二区中文字幕| 日产国产欧美视频一区精品| 国产精品电影一区二区| 91精品国产黑色紧身裤美女| 午夜在线a亚洲v天堂网2018| 欧美 日韩 国产精品免费观看| 青青草视频一区| 一区二区不卡在线播放 | 首页国产欧美久久| 中文字幕一区二区在线播放| 免费高清在线视频一区·| 亚洲欧美影音先锋| 久久久久久日产精品| 精品视频在线视频| 噜噜爱69成人精品| 亚洲区一区二区三区| 色综合色综合色综合色综合色综合| 美女性感视频久久| 亚洲成av人影院| 亚洲欧美色图小说| 国产欧美日韩综合| 国产亚洲欧美激情| 欧美成人vr18sexvr| 欧美久久久久久久久久| 日本精品一区二区三区四区的功能| 在线成人h网| 国产在线观看一区| 欧美日韩成人| 色综合网色综合| www.亚洲在线| 99在线精品观看| 欧美88av| 亚洲成人中文| 亚洲国产欧美国产综合一区| 91蜜桃免费观看视频| 99视频国产精品|