靈初智能在近期正式揭曉了其最新研發(fā)成果——基于強(qiáng)化學(xué)習(xí)(RL)技術(shù)的端到端具身模型Psi R0。這款模型在雙靈巧手的協(xié)同操作上實(shí)現(xiàn)了突破,能夠串聯(lián)并混合訓(xùn)練多種技能,生成具備邏輯推理能力的智能體,從而成功完成一系列復(fù)雜的、長(zhǎng)距離的靈巧操作任務(wù)。
Psi R0不僅具備出色的操作技能,還展現(xiàn)出了跨物品和跨場(chǎng)景的泛化能力。在電商場(chǎng)景中,商品打包是一個(gè)典型的長(zhǎng)流程任務(wù),需要對(duì)成千上萬(wàn)件商品進(jìn)行抓取、掃碼、放置以及塑料袋打結(jié)等一系列操作。令人驚嘆的是,Psi R0憑借其雙靈巧手,能夠流暢地完成這一系列繁瑣的步驟,據(jù)官方介紹,這一表現(xiàn)足以替代一個(gè)完整的工作崗位。
靈初智能透露,Psi R0模型利用了海量的仿真數(shù)據(jù)進(jìn)行訓(xùn)練,通過(guò)雙向訓(xùn)練框架將多種技能串聯(lián)起來(lái),率先在開(kāi)放環(huán)境中完成了長(zhǎng)程任務(wù)。該模型展現(xiàn)出了強(qiáng)大的泛化能力和魯棒性,能夠在不同的環(huán)境和條件下穩(wěn)定工作。
為了實(shí)現(xiàn)這一目標(biāo),靈初智能開(kāi)發(fā)了一種獨(dú)特的技能訓(xùn)練框架。該框架從物體的時(shí)空軌跡中提取關(guān)鍵信息,構(gòu)建出通用的目標(biāo)函數(shù),從而解決了獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)困難的問(wèn)題。在后訓(xùn)練階段,通過(guò)引入少量的高質(zhì)量真實(shí)機(jī)器數(shù)據(jù),進(jìn)一步提升了長(zhǎng)程任務(wù)的成功率。
雙向訓(xùn)練框架中的轉(zhuǎn)移可行性函數(shù)在技能串聯(lián)過(guò)程中起到了至關(guān)重要的作用。該函數(shù)能夠微調(diào)技能,提高串聯(lián)的成功率和泛化性,同時(shí)賦予模型自主切換技能的能力。當(dāng)遇到操作失敗時(shí),Psi R0能夠迅速調(diào)整策略,確保任務(wù)的高成功率。
這一創(chuàng)新不僅展示了靈初智能在強(qiáng)化學(xué)習(xí)領(lǐng)域的技術(shù)實(shí)力,也為機(jī)器人技術(shù)的發(fā)展開(kāi)辟了新的方向。Psi R0的成功應(yīng)用,預(yù)示著未來(lái)機(jī)器人在長(zhǎng)程靈巧操作任務(wù)中將發(fā)揮更加重要的作用,為工業(yè)自動(dòng)化和智能化進(jìn)程注入新的動(dòng)力。
Psi R0的出色表現(xiàn)也離不開(kāi)其背后的算法和數(shù)據(jù)處理技術(shù)的支持。靈初智能在算法優(yōu)化和數(shù)據(jù)處理方面投入了大量的研發(fā)資源,確保了Psi R0能夠在各種復(fù)雜環(huán)境中穩(wěn)定工作,并展現(xiàn)出卓越的性能。