將家務(wù)全部交給機(jī)器人的那一天,或許會(huì)比想象中更快到來。 還記得會(huì)炒菜的斯坦福 ALOHA 機(jī)器人嗎?現(xiàn)在,中國的初創(chuàng)公司自變量機(jī)器人(X Square)展示了同樣令人驚艷的能力,甚至更進(jìn)一步。 在該公司最新展示的 Demo 中,完全基于大模型自主推理的雙臂機(jī)器人,利用低成本硬件即實(shí)現(xiàn)對不規(guī)則物體的精細(xì)操作(如抓握、拾取、切割等),以及折疊衣服、沖泡飲料等復(fù)雜任務(wù),展現(xiàn)出相當(dāng)程度的泛化性能。 折疊衣物(3 倍速播放):對柔性物體的操作長久以來都是困擾整個(gè) manipulation 領(lǐng)域的難題,需要高度靈活的操作和精細(xì)的動(dòng)作協(xié)調(diào)。 切火腿(2 倍速播放):復(fù)雜的摩擦和阻力,難以用傳統(tǒng)方法快速建模,需要精確的力度控制與物體定位。 切黃瓜,2 倍速播放:在一種物體上習(xí)得的能力直接泛化到不同物體的操作上。 用海綿擦掉案板上的污漬(2 倍速播放):自修正的 close loop 控制能力,在不同壓力和表面條件下的精細(xì)力度控制,實(shí)時(shí)檢測并調(diào)整擦拭動(dòng)作,確保徹底清潔污漬。 用勺子從罐子里取出適量的果汁粉(3 倍速播放):使用工具的過程中,處理復(fù)雜的摩擦一直以來都是極大難點(diǎn)。 沖果汁,舉起水壺往杯中倒入適量的水(3 倍速播放):流體引入大量的隨機(jī)性,準(zhǔn)確操作非常困難。 這家去年底成立的公司,匯聚了來自世界著名人工智能 / 機(jī)器人學(xué)實(shí)驗(yàn)室以及國內(nèi)外頂尖高校的優(yōu)秀人才,擁有雄厚的科研背景。公司的目標(biāo)是「將人類從無意義的體力勞動(dòng)中解放出來」,專注于機(jī)器人領(lǐng)域的基礎(chǔ)模型(foundation model)研發(fā)。 目前,團(tuán)隊(duì)正在構(gòu)建一個(gè)具備從感知到行動(dòng)的端到端能力的通用機(jī)器人大模型(“中樞神經(jīng)”),目標(biāo)是能夠控制低成本硬件(如數(shù)千元的機(jī)械臂),完成包括烹飪、打掃衛(wèi)生在內(nèi)的日常家務(wù),并在未來擴(kuò)展到照顧老人和小孩等更復(fù)雜的家庭護(hù)理工作,以及完成其他達(dá)到人類水平的通用操作任務(wù)。 基于具身智能大模型,開發(fā)通用機(jī)器人平臺(tái) 盡管機(jī)器人管家是人類對智能未來最具代表性的暢想,但在現(xiàn)實(shí)生活中,能夠勝任家務(wù)勞動(dòng)的通用服務(wù)機(jī)器人幾十年來的發(fā)展一直困難重重。家庭環(huán)境的多樣性和不可預(yù)測性要求機(jī)器人具備高度復(fù)雜的感知能力、靈活精確的機(jī)械操作、智能的決策和規(guī)劃,以及有效的人機(jī)交互能力。此外,技術(shù)的集成、機(jī)器人的安全性、續(xù)航能力、成本等,也是必須克服的重要障礙。 傳統(tǒng)的機(jī)器人通常采用基于規(guī)則和單一任務(wù)環(huán)境的方式,很難根據(jù)環(huán)境變化自主調(diào)整策略,從長遠(yuǎn)看也幾乎不可能規(guī)模化。大語言模型(LLM)等人工智能技術(shù)的突破,為機(jī)器人領(lǐng)域帶來了新的曙光。谷歌的 RT-2 系統(tǒng)將視覺-語言-動(dòng)作模型與機(jī)器人技術(shù)相結(jié)合,使機(jī)器人能夠處理復(fù)雜場景,并響應(yīng)人類的指令。DeepMind 的 AutoRT 系統(tǒng)則使用視覺-語言模型(VLM),幫助機(jī)器人適應(yīng)未知環(huán)境,并利用 LLM 來為機(jī)器人提供指令。大模型在知識(shí)遷移和泛化方面的這些優(yōu)勢,有望幫助機(jī)器人逼近甚至超越人類的水平。 X Square 認(rèn)為,目前機(jī)器人領(lǐng)域正處于技術(shù)的代際更迭之際。斯坦福 ALOHA 等項(xiàng)目表明,通用機(jī)器人發(fā)展的瓶頸在于智能而非硬件。事實(shí)上,機(jī)器人領(lǐng)域長期以來面臨的兩大困難,一是如何在復(fù)雜環(huán)境中精確感知并做出精細(xì)的操作(low level 智能),二是缺乏類似人類的推理、規(guī)劃、交互等高級認(rèn)知能力(high level 智能)。從感知到行動(dòng),機(jī)器人的智能可以被視為一個(gè)從 high level 逐步到 low level 的決策過程。 大模型的出現(xiàn)為解決上述難題帶來了新思路。運(yùn)用 LLM 或 VLM 來進(jìn)行高階推理與規(guī)劃、與人交互,已經(jīng)成為業(yè)界公認(rèn)的發(fā)展方向。 但是,直接用單一的大模型來驅(qū)動(dòng)端到端的機(jī)器人 manipulation,目前嘗試的團(tuán)隊(duì)還不多。 X Square 的獨(dú)特之處便在于此,團(tuán)隊(duì)基于過往在模型、算法、系統(tǒng)、硬件等方面的科研成果積累,集合所有技能訓(xùn)練「機(jī)器人 Large Manipulation Model」,從手部操作切入,基于具身大模型來構(gòu)建可以精細(xì)操作的通用機(jī)器人。 團(tuán)隊(duì)希望結(jié)合 high-level 的推理規(guī)劃模型與 low-level 的操作控制模型,打造一個(gè)類似「機(jī)器人大腦-小腦」的通用操作系統(tǒng)。