三星電子宣布推出一款自主研發(fā)的AI性能基準測試工具——TRUEBench,全稱為“可信真實場景使用評估基準”(Trustworthy Real-world Usage evaluation Benchmark)。該工具由三星研究院開發(fā),旨在填補現(xiàn)有AI基準測試工具在多語言支持和復(fù)雜任務(wù)評估方面的空白,為企業(yè)級AI應(yīng)用提供更貼近實際場景的評估標準。
三星研究院在開發(fā)過程中發(fā)現(xiàn),傳統(tǒng)AI基準測試工具普遍存在兩大缺陷:一是語言覆蓋范圍有限,主要聚焦英語環(huán)境;二是測試場景過于單一,多局限于單輪問答結(jié)構(gòu)。而TRUEBench通過構(gòu)建包含12種語言的測試體系,覆蓋了從8個字符的簡短指令到2萬字符的長文檔處理等多樣化任務(wù),形成了包含2485組測試集的評估框架。這些測試集被劃分為10個大類、46個子類,涵蓋內(nèi)容生成、數(shù)據(jù)分析、文本摘要、跨語言翻譯等10項核心企業(yè)任務(wù)。
該工具的評估機制采用AI與人類專家協(xié)同設(shè)計的自動評分系統(tǒng),通過多維度參數(shù)構(gòu)建可靠性驗證模型。三星特別強調(diào),TRUEBench的測試設(shè)計基于企業(yè)內(nèi)部AI生產(chǎn)力提升的實踐經(jīng)驗,能夠更精準地反映AI模型在實際業(yè)務(wù)場景中的問題解決能力。目前,工具的數(shù)據(jù)樣本及排行榜已在開源平臺Hugging Face上線,用戶可免費測試最多5個AI模型,并獲取性能效率對比報告。
三星電子DX部門首席技術(shù)官兼三星研究院院長Paul (Kyungwhoon) Cheun表示:“三星研究院在真實業(yè)務(wù)場景中積累了深厚的AI應(yīng)用經(jīng)驗,這使我們具備開發(fā)專業(yè)評估工具的獨特優(yōu)勢。TRUEBench的推出不僅能為行業(yè)提供生產(chǎn)力領(lǐng)域的評估標準,也將進一步強化三星在技術(shù)創(chuàng)新領(lǐng)域的領(lǐng)導(dǎo)地位。”
本文鏈接:http://m.rrqrq.com/showinfo-24-185071-0.html?三星自研AI性能基準測試工具TRUEBench上線,填補多語言多任務(wù)評估空白?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 雷軍憶往昔:蘋果三星華為如大山壓頂,小米逆襲終成行業(yè)翹楚
下一篇: ?OpenAI內(nèi)部測試GPT-Alpha智能體:基于GPT-5,支持多模態(tài)多任務(wù)處理?