作為人工智能與機器人交叉領域的核心方向,具身智能正引領全球科技變革。其中,機器人大模型作為“智能中樞”,正在推動機器人突破單一任務限制,向復雜環(huán)境下的自主學習與進化邁進。近期,中美兩國具身智能企業(yè)幾乎同步開源模型,標志著這一領域的技術生態(tài)進入爆發(fā)期。
9月8日,中國自變量機器人公司開源了具身模型WALL-OSS;次日,美國Physical Intelligence(PI)公司也發(fā)布了π?.?模型。這一“巧合”引發(fā)行業(yè)熱議,被視為具身智能邁向成熟的關鍵信號。回顧語言大模型發(fā)展路徑,從2018年開源社區(qū)初步探索,到2020年ChatGPT-3引發(fā)全球關注,技術迭代用了三年。如今,機器人大模型是否也站在了“GPT-3時刻”的門檻上?
在近期的一場技術對話中,自變量機器人CTO王昊與PI研究員柯麗一鳴(π?、π?.?論文作者)深入探討了這一話題。他們認為,2025年機器人模型領域最顯著的突破是“泛化能力”與“長程任務”的突破。柯麗一鳴以疊衣服任務為例:“過去二十年,機器人疊衣服始終面臨挑戰(zhàn),因為衣物褶皺、折疊順序的多樣性遠超想象。但到2025年,模型已能將π?.?部署到陌生家庭環(huán)境中,完成抓取、移動等基礎操作,盡管表現(xiàn)不完美,卻展現(xiàn)出類似人類的適應性。”
王昊進一步指出,通用機器人基礎模型的發(fā)展,使機器人從“單任務專家”轉(zhuǎn)向“多任務學習者”。例如,2023年前,機器人需針對每個任務單獨優(yōu)化;如今,統(tǒng)一模型可同時學習數(shù)百種任務,優(yōu)化目標從“單一任務極致”轉(zhuǎn)向“全局任務平均成功率”。這種指數(shù)效應讓機器人能處理包含連續(xù)步驟、需多步推理的復雜任務(如整理餐桌、布置餐具),成為行業(yè)最令人興奮的現(xiàn)象。
然而,泛化能力的提升仍面臨三大挑戰(zhàn)。首先是物理世界的“長尾效應”:光照變化、桌布褶皺、透明物體反光等微小擾動,可能導致任務失敗。人類能憑直覺適應,但依賴數(shù)據(jù)驅(qū)動的AI模型仍需突破。其次是長程任務中的誤差累積:微小擾動可能像滾雪球一樣放大,最終導致任務失敗。王昊強調(diào),需構建理解物理常識的模型基礎,讓機器人具備空間推理與因果推理能力。最后是數(shù)據(jù)質(zhì)量與數(shù)量的平衡:高質(zhì)量數(shù)據(jù)需精心設計,但追求數(shù)量時難以兼顧細節(jié);低質(zhì)量數(shù)據(jù)則可能影響模型性能。
數(shù)據(jù)采集的“真機維護”問題也被頻繁提及。柯麗一鳴笑稱:“做機器人研究,每天都在擰螺絲。”她回憶,早期研究時,硬件故障頻發(fā),新人常因維修壓力而放棄。如今,盡管硬件穩(wěn)定性提升,但真機維護仍是門檻。王昊補充道,機器人數(shù)據(jù)采集受限于硬件場地、操作員效率,成本高昂。為此,行業(yè)探索了多種解決方案:低成本本體、穿戴式傳感器、人類視頻數(shù)據(jù)等。其中,人類視頻數(shù)據(jù)規(guī)模大、成本低,但僅能提供高級語義理解與任務規(guī)劃,難以直接生成動作級數(shù)據(jù)。
在模型架構上,中美企業(yè)呈現(xiàn)出不同路徑。自變量機器人主張“端到端”訓練,將語言、視覺、動作模態(tài)統(tǒng)一表征,避免分層導致的信息損失。王昊解釋:“訓練時,模型可同時學習理解推理與動作生成;部署時,將動作部分壓縮蒸餾,語言推理部分放在云端,通過梯度回傳更新參數(shù)。”而PI則保持開放態(tài)度,柯麗一鳴認為:“當前機器人大模型尚未達到GPT-2水平,數(shù)據(jù)驅(qū)動是核心,但具體架構(如雙系統(tǒng)分離或端到端)并非首要問題。”
商業(yè)化方面,中美企業(yè)展現(xiàn)出差異化策略。美國企業(yè)傾向于“自上而下”,優(yōu)先構建超大規(guī)模通用模型,再探索應用場景。這得益于其算力優(yōu)勢——頂級芯片與大規(guī)模算力集群集中在美國。而中國企業(yè)則采取“上下結合”的雙軌路徑:一方面迭代通用基礎模型,另一方面在養(yǎng)老、公共服務等泛化場景中落地,形成數(shù)據(jù)飛輪。王昊強調(diào):“必須先有大而通用的基礎,才能實現(xiàn)小而精的垂直部署。”柯麗一鳴則觀察到,中國制造業(yè)的硬件需求與場景優(yōu)勢,為機器人商業(yè)化提供了獨特土壤。
對于家用機器人的落地時間,兩位專家給出不同預測。王昊認為,5年內(nèi)機器人可進入家庭,完成廚房簡單任務(如洗碗、切菜),但需人類協(xié)作;柯麗一鳴則保守估計5-10年,她以掃地機器人為例:“早期產(chǎn)品不完美,但用戶明確其能力邊界,這種模式值得借鑒。”他們一致認為,機器人需跨越數(shù)據(jù)、算法、供應鏈、商業(yè)模式等多重門檻,才能真正實現(xiàn)規(guī)模化應用。
本文鏈接:http://m.rrqrq.com/showinfo-26-181822-0.html具身智能開源模型加速發(fā)展,中美同步探索下通用機器人未來可期
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com