斯坦福大學、特拉維夫大學與麥吉爾大學的研究團隊近日在人工智能領域取得重要進展,他們開發的LMEnt研究套件首次實現了對AI語言模型訓練過程的精細化追蹤。這項突破性成果不僅為理解AI知識獲取機制提供了新工具,更可能重塑未來語言模型的構建方式。
傳統研究如同觀察學生考試結果,只能判斷其最終掌握程度,卻無法知曉學習過程中的具體細節。LMEnt系統的出現,相當于為AI訓練安裝了"教學監控",能夠精確記錄模型在接觸每個文本塊時獲得的知識。研究團隊通過三個創新模塊,構建起這個前所未有的"知識追蹤系統"。
在數據標注層面,研究人員對維基百科進行了革命性改造。他們為每個實體分配Wikidata的QID編碼,相當于建立精確的"身份識別系統"。當搜索"布法羅"時,系統能準確區分布法羅市、布法羅比爾隊和布法羅動物的相關信息。這種精確性得益于三重技術保障:直接提取現有超鏈接、實體鏈接識別和共指消解技術。實驗顯示,系統能識別Josh Allen頁面中"這支球隊"、"the Bills"等23種間接指代方式。
信息檢索模塊的突破更為顯著。研究團隊構建的Elasticsearch索引包含1050萬個文本塊,每個都標注了實體及其置信度。與傳統關鍵詞檢索相比,這個系統如同通曉各種暗語的資深圖書管理員。測試數據顯示,其能為66.3%至80.4%的實體找到更多相關信息,準確率始終保持在97%以上,而傳統方法在檢索范圍擴大時準確率會驟降至27%。
訓練過程追蹤模塊則創造了獨特的"AI成長日記"。研究團隊訓練了12個不同規模的模型(參數從1.7億到10億),保存了每個模型的110個訓練檢查點。這些模型在PopQA知識問答測試中表現優異,10億參數模型達到66%的準確率,與Pythia-1.4B等主流模型持平。更關鍵的是,通過分析這些中間狀態,研究人員發現了AI知識獲取的獨特規律。
研究發現,模型的知識掌握與訓練數據中的"共現頻率"密切相關。當某個問題的主體和答案頻繁出現在同一文本塊時,模型回答正確的概率顯著提高。但高頻事實的學習過程呈現波動特征:模型可能在某個階段掌握知識,后續訓練中又暫時遺忘,最終再次學會。這種"學會-遺忘-再學會"的循環在高頻知識上尤為明顯。
這項研究開辟了多個應用方向。在知識可塑性研究中,研究人員可以確定模型最易接受新知識的訓練階段;在事實準確性改進方面,通過優化訓練數據排列順序或替換模糊指代,能顯著提升模型表現;機械可解釋性研究則借助訓練過程的透明度,觀察知識在神經網絡中的構建過程。
盡管當前研究主要基于維基百科語料庫,且模型規模最大為10億參數,但研究團隊已規劃擴展方向。他們計劃將標注方法應用于更多類型語料庫,并研究知識在整個訓練流程中的演變。正如論文所述,LMEnt為理解AI內部機制提供了全新視角,其建立的精確追蹤體系將成為后續研究的重要基準。
Q&A環節
問:LMEnt系統與傳統研究方法有何本質區別?答:傳統方法只能觀察AI模型的最終表現,如同通過考試成績判斷學生水平。LMEnt則能記錄訓練全過程的每個知識獲取瞬間,包括何時、從哪個文本塊學到了什么具體信息,實現了對AI學習過程的動態追蹤。
問:檢索系統的精確性體現在哪些具體場景?答:以搜索"蘋果"為例,傳統方法可能混淆蘋果公司、水果和蘋果唱片的信息。LMEnt系統能準確區分不同語境下的指代,甚至識別"這家科技巨頭"、"水果"、"唱片公司"等間接表述,確保檢索結果的相關性和準確性。
問:高頻知識的學習波動現象有何實際意義?答:這一發現改變了我們對AI學習機制的認知。它表明AI并非簡單積累知識,而是經歷復雜的動態過程。理解這種波動模式,有助于優化訓練策略,比如在高遺忘風險階段加強復習,或調整數據呈現方式以提高知識保留率。
更多>同類資訊AI搜索的數學邊界:當最強大模型遇上"簡單問題"的隱秘困局09-23中科院團隊創新CARVE法:破解AI視覺“分心”難題,助模型精準聚焦09-23Plaud攜三款AI紀要新品入局大陸市場,多模態交互與長續航成亮點09-23DeepSeek線上模型升級至V3.1-Terminus,輸出更穩Agent能力再提升09-23DeepSeek-V3.1升級至V3.1-Terminus:語言更一致,代理更強大,輸出更穩定09-23上海人工智能實驗室牽頭!科學智能戰略科技力量聯盟正式成立09-23DeepSeek-V3.1-Terminus發布:修復Bug,編程與搜索智能體能力再升級09-23科學智能戰略科技力量聯盟成立 共探AI賦能多學科創新發展路徑09-23中國電信引領6G新突破:首個6G計費項目獲3GPP正式批準09-23DeepSeek-V3.1-Terminus更新登場!修復關鍵Bug,Agent能力躍升,V4還會遠嗎?09-23百度智能云千帆開源Qianfan-VL視覺模型,多尺寸適配,全自研芯片賦能高效計算09-23人工智能投資新視角:大模型進階智能體,場景化應用前景展望今天分享的是:人工智能專題:從大模型到智能體——人工智能+場景的投資展望 報告共計:31頁 《人工智能專題:從大模型到智能體——人工智能+場景的投資展望》報告首先探討“什么是真正的人工智能”,指出大語言模型如…09-23京東王競凡:智能機器人高速發展,中國機器人市場2028年或達千億來源:睿見Economy 9月16日-17日,聚合智能產業發展大會(2025)在武漢市舉行,主題為“協同融合創新鏈產業鏈推動聚合智能產業發展”。 王競凡指出,目前智能機器人處于一個前所未有的高速發展道路,智…09-23上海創智學院周年慶發布模速空間AI工作站 助力教育大模型終端化應用會上,學院正式發布標桿成果——模速空間AI工作站,該設備搭載上海“啟創·InnoSpark”人工智能教育大模型,以“端側算力+教育大模型+場景化應用”三位一體架構,為教育領域注入智能新動能。該工作站由英和智臨…09-23國內AI大模型邁向“用起來”階段,央(國)企集約共享大模型前景與挑戰并存通信世界網消息(CWW)目前,國內AI大模型產業正從“百模大戰”的“建起來”階段,向“行業爆發”的“用起來”階段過渡。權威機構發布的數據顯示,2025年一季度國內大模型市場規模預計突破495億元人民幣,但AI…09-23點擊查看更多 +全站最新
?9月狹義乘用車零售預計達215萬輛,新能源車滲透率或超58%引關注?
6.88萬起極狐T1實測:空間越級配置足,小電車市場殺出“全能王”?
?雷軍官宣小米17系列9月25日發布,盧偉冰稱產品力跨代升級且對標iPhone17?
?小米17系列9月25日發布在即,雷軍年度演講《改變》將揭秘芯片與汽車故事?
?雷軍宣布:9月25日小米17系列發布,同期將舉辦第6次年度演講聊芯片與汽車故事?
小米SU7標準版11.7萬輛召回:OTA升級背后的智能駕駛安全與行業新挑戰熱門內容
第22屆東博會AI元素亮眼:數字智能體引路 機器人炫技展風采
AI云競爭下半場:華為以超節點、企業Agent等破局,誰能領跑產業?
2025網安周:每日互動劉宇談AI時代,知識安全成關鍵,共筑數字新未來
中國大模型DeepSeek首登Nature封面,R1訓練成本僅約208萬引關注
華為全聯接大會2025啟幕,發布全球最強算力超節點與集群
有鹿機器人+連合直租:以智能租賃模式,開啟高端場景清潔新未來
本文鏈接:http://m.rrqrq.com/showinfo-45-27968-0.html斯坦福等高校聯手:用LMEnt套件追蹤AI語言模型知識學習軌跡
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com