當前位置：首頁 > 科技 > 數(shù)碼

?三星自研AI性能基準測試工具TRUEBench上線，填補多語言多任務(wù)評估空白?

來源：責編：時間：2025-09-26 17:39:12 10觀看

導(dǎo)讀三星電子宣布推出一款自主研發(fā)的AI性能基準測試工具——TRUEBench，全稱為“可信真實場景使用評估基準”（Trustworthy Real-world Usage evaluation Benchmark）。該工具由三星研究院開發(fā)，旨在填補現(xiàn)有AI基準測試工具在多語

三星電子宣布推出一款自主研發(fā)的AI性能基準測試工具——TRUEBench，全稱為“可信真實場景使用評估基準”（Trustworthy Real-world Usage evaluation Benchmark）。該工具由三星研究院開發(fā)，旨在填補現(xiàn)有AI基準測試工具在多語言支持和復(fù)雜任務(wù)評估方面的空白，為企業(yè)級AI應(yīng)用提供更貼近實際場景的評估標準。

三星研究院在開發(fā)過程中發(fā)現(xiàn)，傳統(tǒng)AI基準測試工具普遍存在兩大缺陷：一是語言覆蓋范圍有限，主要聚焦英語環(huán)境；二是測試場景過于單一，多局限于單輪問答結(jié)構(gòu)。而TRUEBench通過構(gòu)建包含12種語言的測試體系，覆蓋了從8個字符的簡短指令到2萬字符的長文檔處理等多樣化任務(wù)，形成了包含2485組測試集的評估框架。這些測試集被劃分為10個大類、46個子類，涵蓋內(nèi)容生成、數(shù)據(jù)分析、文本摘要、跨語言翻譯等10項核心企業(yè)任務(wù)。

該工具的評估機制采用AI與人類專家協(xié)同設(shè)計的自動評分系統(tǒng)，通過多維度參數(shù)構(gòu)建可靠性驗證模型。三星特別強調(diào)，TRUEBench的測試設(shè)計基于企業(yè)內(nèi)部AI生產(chǎn)力提升的實踐經(jīng)驗，能夠更精準地反映AI模型在實際業(yè)務(wù)場景中的問題解決能力。目前，工具的數(shù)據(jù)樣本及排行榜已在開源平臺Hugging Face上線，用戶可免費測試最多5個AI模型，并獲取性能效率對比報告。

三星電子DX部門首席技術(shù)官兼三星研究院院長Paul (Kyungwhoon) Cheun表示：“三星研究院在真實業(yè)務(wù)場景中積累了深厚的AI應(yīng)用經(jīng)驗，這使我們具備開發(fā)專業(yè)評估工具的獨特優(yōu)勢。TRUEBench的推出不僅能為行業(yè)提供生產(chǎn)力領(lǐng)域的評估標準，也將進一步強化三星在技術(shù)創(chuàng)新領(lǐng)域的領(lǐng)導(dǎo)地位。”

本文鏈接：http://m.rrqrq.com/showinfo-24-185071-0.html?三星自研AI性能基準測試工具TRUEBench上線，填補多語言多任務(wù)評估空白?

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：雷軍憶往昔：蘋果三星華為如大山壓頂，小米逆襲終成行業(yè)翹楚

下一篇： ?OpenAI內(nèi)部測試GPT-Alpha智能體：基于GPT-5，支持多模態(tài)多任務(wù)處理?

標簽：

熱門焦點

一加Ace2 Pro真機揭曉鈦空灰配色質(zhì)感拉滿

終于，在經(jīng)過了幾波預(yù)熱之后，一加Ace2 Pro的外觀真機圖在網(wǎng)上出現(xiàn)了。還是博主數(shù)碼閑聊站曝光的，這次的外觀設(shè)計還是延續(xù)了一加11的方案，只是細節(jié)上有了調(diào)整，例如新加入了鈦空灰
紅魔電競平板評測：大屏幕硬實力

前言：三年的疫情因為要上網(wǎng)課的原因激活了平板市場，如今網(wǎng)課的時代已經(jīng)過去，大家的生活都恢復(fù)到了正軌，這也就意味著，真正考驗平板電腦生存的環(huán)境來了。也就是面對著這種殘酷的
Redmi Pad評測：紅米充滿野心的一次嘗試

從Note系列到K系列，從藍牙耳機到筆記本電腦，紅米不知不覺之間也已經(jīng)形成了自己頗有競爭力的產(chǎn)品體系，在中端和次旗艦市場上甚至要比小米新機的表現(xiàn)來得更好，正所謂“大丈夫生居
6月安卓手機性價比榜：Note 12 Turbo斷層式碾壓

6月份有一個618，雖然這是京東周年慶的日子，但別的電商也都不約而同的跟進了，反正促銷沒壞處，廠商和用戶都能滿意。618期間一些產(chǎn)品也出現(xiàn)了歷史低價，那么各個價位段的產(chǎn)品性價比
如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數(shù)量是否小于或等于一個數(shù)字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
疑似小米14外觀設(shè)計圖曝光：后置相機模組變化不大

下半年的大幕已經(jīng)開啟，而誰將成為下半年手機圈的主角就成為了大家關(guān)注的焦點，其中被傳有望拿下新一代驍龍8 Gen3旗艦芯片的小米14系列更是備受大家矚
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據(jù)官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

日前OPPO官方宣布，全新的OPPO K11將于7月25日正式發(fā)布，將主打旗艦影像，和同檔位競品相比，其最大的賣點就是將配備索尼IMX890主攝，堪稱是2000檔位影像表
榮耀Magicbook V 14 2021曙光藍版本正式開售，擁有觸摸屏

榮耀 Magicbook V 14 2021 曙光藍版本正式開售，搭載 i7-11390H 處理器與 MX450 顯卡，配備 16GB 內(nèi)存與 512GB SSD，重 1.48kg，厚 14.5mm，具有 1.5mm 鍵盤鍵程、

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

?三星自研AI性能基準測試工具TRUEBench上線，填補多語言多任務(wù)評估空白?

一加Ace2 Pro真機揭曉鈦空灰配色質(zhì)感拉滿

紅魔電競平板評測：大屏幕硬實力

Redmi Pad評測：紅米充滿野心的一次嘗試

6月安卓手機性價比榜：Note 12 Turbo斷層式碾壓

如何正確使用:Has和:Nth-Last-Child

疑似小米14外觀設(shè)計圖曝光：后置相機模組變化不大

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

OPPO K11采用全方位護眼屏：三大護眼能力減輕視覺疲勞

榮耀Magicbook V 14 2021曙光藍版本正式開售，擁有觸摸屏

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊