當(dāng)前位置：首頁 > 元宇宙 > AI

GPT-5 編程測評“表面不及格”：實(shí)際 63.1% 的任務(wù)沒交卷，全算上成績比 Claude 高一倍

來源：責(zé)編：時間：2025-09-25 15:00:17 47觀看

導(dǎo)讀 Scale AI 的新軟件工程基準(zhǔn) SWE-BENCH PRO，出現(xiàn)反轉(zhuǎn)！表面上看，“御三家”集體翻車，沒一家的解決率超過 25%：GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。但深入數(shù)據(jù)背

Scale AI 的新軟件工程基準(zhǔn) SWE-BENCH PRO，出現(xiàn)反轉(zhuǎn)！

表面上看，“御三家”集體翻車，沒一家的解決率超過 25%：

GPT-5、Claude Opus 4.1、Gemini 2.5 分別以 23.3%、22.7%、13.5% 的解決率“榮”登前三。

但深入數(shù)據(jù)背后，則暗藏玄機(jī)。

前 OpenAI 研究員 Neil Chowdhury 表示，如果只看已提交的任務(wù)，GPT-5 能達(dá)到 63% 的準(zhǔn)確率，比 Claude Opus 4.1 的 31%，高了近一倍！

（這怎么不算 G 又贏??？）

換句話說，GPT-5 在擅長的題目上依舊穩(wěn)健，與老基準(zhǔn) SWE-Bench-Verified 的 74.9% 差距不大，而 Claude 跟其他模型則直接拉垮到底。

那么，究竟是什么基準(zhǔn)測試，讓這些頂級模型如此狼狽？

SWE-BENCH PRO

先說結(jié)論，不是模型變菜了，而是題變難了。

與平均正確率高達(dá) 70% 的 SWE-Bench-Verified 相比，SWE-BENCH PRO 嚴(yán)格得可不止一星半點(diǎn)。

一方面，作為 OpenAI 于 2024 年 8 月發(fā)布的測試集，SWE-Bench-Verified 中的很多代碼庫已被用作大語言模型的預(yù)訓(xùn)練語料，存在著數(shù)據(jù)污染的風(fēng)險(xiǎn)。

另一方面，SWE-Bench-Verified 還包含不少瑣碎的問題，例如 500 個問題中有 161 個只需一兩行修改。

這與工業(yè)軟件工程中通常涉及的跨多文件、數(shù)百行修改的場景差距較大，從而無法真正反映實(shí)際開發(fā)場景中所面臨的挑戰(zhàn)。

基于此，SWE-BENCH PRO 主打全新題目，以確保模型在訓(xùn)練階段從未接觸過測試內(nèi)容，從而更真實(shí)地考驗(yàn)?zāi)Ｐ偷膶?shí)際能力。

涵蓋 1865 個商業(yè)應(yīng)用、B2B 服務(wù)和開發(fā)者工具的多元化代碼庫

具體來說，SWE-BENCH PRO 將這些代碼庫構(gòu)建為以下三個子集：

公共集：來自采用 copy-left 許可證的 11 個公共代碼庫的 731 個問題。

商業(yè)集：來自 276 個源自初創(chuàng)公司代碼庫的問題。

保留集：來自采用 copy-left 許可證的 12 個公共代碼庫的 858 個問題。

（注：公共集將在 HuggingFace 上發(fā)布，商業(yè)集和保留集保持私有，商業(yè)集的測試結(jié)果會公開，保留集用于驗(yàn)證模型是否過擬合。每個問題由任務(wù)描述、相關(guān)測試集和可運(yùn)行環(huán)境構(gòu)成。）

這些從強(qiáng) Copyleft 許可證（GPL）代碼庫和真實(shí)的初創(chuàng)公司獲取的商業(yè)代碼庫能夠有效地解決 SWE-Bench-Verified 存在的數(shù)據(jù)污染問題。

為了確保任務(wù)的復(fù)雜性，研究團(tuán)隊(duì)還排除了像 1-10 行代碼編輯這樣瑣碎的編輯，保留了需要進(jìn)行大量多文件修改的問題。

此外，為了防止模型對任何單一代碼庫產(chǎn)生過擬合，這些代碼庫都處于活躍狀態(tài)并覆蓋消費(fèi)者應(yīng)用、B2B 服務(wù)和開發(fā)者工具平臺。

接下來，就讓我們看看研究者是如何在這些問題上進(jìn)行測試的。

human in the loop 的測試環(huán)節(jié)

為了將模型評估的重點(diǎn)放在當(dāng)模型獲得充分細(xì)節(jié)后，能否實(shí)現(xiàn)給定的修復(fù)或補(bǔ)丁上。

研究團(tuán)隊(duì)在 SWE-Bench Verified 的基礎(chǔ)上，將 SWE-BENCH PRO 中的每個問題都經(jīng)過了人工增強(qiáng)，并加入了問題陳述、需求說明以及接口信息。

首先，研究團(tuán)隊(duì)提供一個待解決問題的問題陳述并在必要時補(bǔ)充上下文信息。

其次，針對潛在的歧義問題，對于每個問題，列出了一系列需求并指定相應(yīng)的類和函數(shù)。

之后，在環(huán)境方面，每個任務(wù)都在一個容器化的、用于特定語言的環(huán)境中進(jìn)行評估。

在測試階段，研究通過 fail2pass 測試驗(yàn)證問題是否已解決，通過 pass2pass 測試確保現(xiàn)有功能保持完整。

其中，為了確保測試質(zhì)量，fail2pass 測試會經(jīng)過人工篩選，去掉與任務(wù)不相關(guān)或過于寬泛的測試。

對于偶爾失敗的測試，則會運(yùn)行三次，以確保結(jié)果穩(wěn)定。

實(shí)驗(yàn)結(jié)論

正如我們開頭提到的，大語言模型在 SWE-BENCH PRO 上的解決率僅為中等水平，遠(yuǎn)低于 SWE-Bench Verified 中的 70% 。

其中，在公共集上，GPT-5 和 Claude Opus 4.1 分別實(shí)現(xiàn)了 23.3% 和 22.7% 的最高解決率，顯著優(yōu)于小規(guī)模模型，Claude Sonnet 4 也達(dá)到了 16.3% 的解決率。

不過，像 DeepSeek Qwen-3 32B 和 GPT-4o 這樣的老模型表現(xiàn)就多少有點(diǎn)不盡人意了，僅為 3.4% 和 3.9%。

在商業(yè)集上，即便是最優(yōu)模型的得分也低于 20%。

這表明當(dāng)前模型在解決真實(shí)商業(yè)場景中的問題時，能力仍然非常有限。

針對這一苦澀的實(shí)驗(yàn)結(jié)果，研究人員展開了進(jìn)一步的分析，結(jié)論如下：

首先，編程語言的難度、代碼庫以及模型的種類被視為影響模型表現(xiàn)的關(guān)鍵因素。

Go 和 Python 通常表現(xiàn)較好，一些模型在這些語言上的解決率超過 30%，而 JavaScript 和 TypeScript 則波動較大，從 0% 到超過 30% 不等。

不同代碼庫的解決率差異也很明顯，一些代碼庫普遍偏低（低于 10%），另一些則超過 50%。

前沿模型如 Claude Opus 4.1 和 GPT-5 在大多數(shù)編程語言和代碼庫中表現(xiàn)穩(wěn)定，小規(guī)模模型則更易出現(xiàn)接近零的解決率。

其次，不同的模型的失敗原因往往各不相同。

OPUS 4.1 的主要失敗模式是語義理解不足，錯誤解答占 35.9%，語法錯誤占 24.2%，表明其技術(shù)執(zhí)行能力較強(qiáng)，但在問題理解和算法正確性方面存在挑戰(zhàn)。

GPT-5 的結(jié)果顯示在工具使用的有效性上可能存在差異，但錯誤解答相對較少。

SONNET 4 的主要失敗模式是上下文溢出（35.6%）和顯著的無休止文件讀取行為（17.0%），表明其在上下文管理和文件導(dǎo)航策略上存在局限。

GEMINI 2.5 的失敗模式則較為均衡，涵蓋工具錯誤（38.8%）、語法錯誤（30.5%）和錯誤解答（18.0%），顯示其在多個維度上保持了一定能力。

QWEN3 32B 作為開源模型，表現(xiàn)出最高的工具錯誤率（42.0%），凸顯了集成化工具使用對于高效代理的重要性。

不難看出，GPT-5 雖然延續(xù)了以往“會就會，不會就不會”的答題策略，但面對高企的未回答率（63.1%），它的表現(xiàn)仍然不夠看。

那么，誰會成為第一個突破 30% 的大模型呢？

參考鏈接

[1]https://x.com/vbingliu

[2]https://scale.com/leaderboard/swe_bench_pro_public

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798

[4] https://scale.com/research/swe_bench_pro

本文來自微信公眾號：量子位（ID：QbitAI），作者：henry

本文鏈接：http://m.rrqrq.com/showinfo-45-28057-0.htmlGPT-5 編程測評“表面不及格”：實(shí)際 63.1% 的任務(wù)沒交卷，全算上成績比 Claude 高一倍

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：奧爾特曼預(yù)告 ChatGPT 新產(chǎn)品：Pro 會員也要額外收費(fèi)，這次不計(jì)成本投入算力

下一篇： Plaud 正式進(jìn)駐中國大陸，Plaud Note Pro 等三款 AI 錄音硬件全面發(fā)售

標(biāo)簽：

熱門焦點(diǎn)

《從營銷AIGC化到AIGC營銷化》報(bào)告發(fā)布

來源：清元宇宙7月2日上午，清華大學(xué)元宇宙文化實(shí)驗(yàn)室舉辦元宇宙在線沙龍“AIGC熱潮與應(yīng)用”。會議中，清華大學(xué)新聞與傳播學(xué)院教授、元宇宙文化實(shí)驗(yàn)室主任、新媒體研究
聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓??！

關(guān)于虛擬數(shù)字人，企業(yè)可以從三個方面入局，分別是ToG（To Government，面向政府），即為數(shù)字政府和數(shù)字城市提供支持服務(wù)；ToB（To Business，面向企業(yè)），即為企業(yè)提供虛擬員工解決方案；ToC（To Cons
從科幻走進(jìn)現(xiàn)實(shí)，元宇宙概念逐漸清晰

2021年，元宇宙概念如同一顆炸彈投進(jìn)互聯(lián)網(wǎng)行業(yè)，掀起了一場數(shù)字海嘯，眾多企業(yè)紛紛入局，在此新領(lǐng)域展開新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻紅，元宇宙走進(jìn)資本圈2021年3
元宇宙是投資中國的第五次重大機(jī)遇

作者為凱思博投資董事長導(dǎo)語：投資邏輯要來自于人性在社會發(fā)展過程中的普遍規(guī)律，由第一性原理出發(fā)找出重大的投資機(jī)會來。1978年的改革開放到今天，中國總共經(jīng)歷了
頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

一場被國際奧委會主席評價堪稱獨(dú)具匠心、非凡卓越的2022年北京冬季奧運(yùn)會，在這個“雙奧之城”經(jīng)歷了16個令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈場景下數(shù)據(jù)權(quán)利法律分析

數(shù)據(jù)權(quán)益的復(fù)雜性在于數(shù)據(jù)涉及多環(huán)節(jié)多主體、內(nèi)容不同質(zhì)且與不同場景緊密聯(lián)系、對軟硬件技術(shù)環(huán)節(jié)緊密相關(guān)等方面的復(fù)雜性。在傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈模式下，數(shù)據(jù)處
花旗集團(tuán)前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO

No.1 花旗集團(tuán)前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO3月1日消息，Provenance區(qū)塊鏈基金會已任命花旗集團(tuán)前高管摩根·麥肯尼（Morgan McKenney）為新任首席執(zhí)行官。麥肯
知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

根據(jù)市場追蹤網(wǎng)站 DappRadar 的數(shù)據(jù)，隨著 NFT 的“出圈”與加密貨幣的普及，NFT 市場在 2021 年的銷售額達(dá)到約 250 億美元，而 2020 年僅為 9490 萬美元，同比增超 2
你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

前有騰訊、阿里申請商標(biāo)注冊，后有Facebook宣布改名，若論當(dāng)前互聯(lián)網(wǎng)最火最熱的概念，當(dāng)屬“元宇宙”?！鞍⒗镌钪妗薄疤詫氃钪妗薄搬斸斣钪妗薄癚Q元宇宙”“

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

GPT-5 編程測評“表面不及格”：實(shí)際 63.1% 的任務(wù)沒交卷，全算上成績比 Claude 高一倍

《從營銷AIGC化到AIGC營銷化》報(bào)告發(fā)布

聚焦虛擬數(shù)字人技術(shù)，這三大商機(jī)要抓??！

從科幻走進(jìn)現(xiàn)實(shí)，元宇宙概念逐漸清晰

元宇宙是投資中國的第五次重大機(jī)遇

頂流IP“冰墩墩”帶著中國元素NFT進(jìn)入全球視野

傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈場景下數(shù)據(jù)權(quán)利法律分析

花旗集團(tuán)前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO

知名藝術(shù)家打造去中心化“好萊塢”：一部電影一個DAO

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

最新推薦

AI大模型“戰(zhàn)火”燒到了教育領(lǐng)域

Meta證實(shí)Quest 2無法實(shí)現(xiàn)全身追蹤，未來將為虛擬化身配備“假腿”

元宇宙是推動NFT發(fā)展的初始家園

Meta 呼吁行業(yè)合作建立元宇宙網(wǎng)絡(luò)基礎(chǔ)設(shè)施

頭像類NFTs的統(tǒng)治能持續(xù)多久？

電影工業(yè)巨頭好萊塢計(jì)劃進(jìn)軍元宇宙，將會對行業(yè)帶來什么影響？

猜你喜歡

熱門推薦

相關(guān)資訊