中信證券:AI算法快速迭代 機器人產(chǎn)業(yè)關(guān)注度持續(xù)提升

中信證券發(fā)布研報表示,OpenAI 和 Figure 合作推出的 Figure 01 機器人展示了驚人的理解、判斷、行動和自我評估能力,并引發(fā)廣泛市場關(guān)注。

智通財經(jīng)APP獲悉,中信證券發(fā)布研報表示,OpenAI 和 Figure 合作推出的 Figure 01 機器人展示了驚人的理解、判斷、行動和自我評估能力,并引發(fā)廣泛市場關(guān)注。具身智能是機器人實現(xiàn)感知、決策、控制的關(guān)鍵,目前主流的算法方案分為端到端模型(如谷歌 RT-2)和分層決策模型(如 Figure01)兩種路徑。端到端模型通過一個神經(jīng)網(wǎng)絡(luò)完成從輸入到輸出的全過程,但需要海量數(shù)據(jù)訓練和大量計算資源。分層模型實現(xiàn)難度相對簡單,但不同步驟間的融合和一致性有待提高。但無論采用何種算法,都需要搭建完整的數(shù)據(jù)收集系統(tǒng),形成數(shù)據(jù)飛輪來實現(xiàn) scaling law,這是機器人算法公司的核心競爭力。

商業(yè)化方面,具身智能機器人需要具備移動能力和通用操作能力。通用型機器人(四足、輪式)在移動能力上實現(xiàn)門檻較低,成本更低,而人形機器人在復(fù)雜場景下移動仍面臨挑戰(zhàn)。通用操作能力是機器人能夠在不同環(huán)境中完成各種任務(wù)的關(guān)鍵,但目前技術(shù)路徑尚不確定。該行判斷,通用機器人相比人形機器人更有可能先實現(xiàn)商業(yè)化,且商業(yè)價值更大。未來最先落地的可能是移動抓取和放置(mobile pick-and-place)技能,應(yīng)用于工廠、藥店/超市、商用清潔等場景。國內(nèi)機器人公司以通用型為主,領(lǐng)先廠商已實現(xiàn)盈利。展望未來,算法層面的進展將直接決定下一步商業(yè)化落地節(jié)奏。

中信證券的主要觀點如下:

投資策略:

人形機器人的商業(yè)化落地需要同時解決移動能力和操作能力兩大挑戰(zhàn),而這兩種能力所需的技術(shù)路線和發(fā)展進程存在差異。

移動能力方面,該行預(yù)計人形機器人將在未來2-3年內(nèi)取得突破性進展,但要實現(xiàn)穩(wěn)定性和量產(chǎn)還需要額外2-3年的時間??傮w而言,移動能力的技術(shù)門檻相對較低,競爭的關(guān)鍵在于成本控制和量產(chǎn)能力。從商業(yè)化的角度看,上半身具備通用操作能力,再加上移動底盤,即可在多個場景實現(xiàn)落地應(yīng)用。初期可以針對特定場景開發(fā)專用機器人,隨著數(shù)據(jù)和場景的積累,逐步過渡到通用型機器人。如果最終目標是進入家庭,則需要在硬件、傳統(tǒng)機器人運動控制算法、AI技術(shù)應(yīng)用、力控和觸覺反饋以及軟件系統(tǒng)等方面進行長期研發(fā),形成軟硬件與算法高度耦合的產(chǎn)品形態(tài)。

操作能力方面,具身智能的發(fā)展路徑與當前大模型公司存在差異。由于機器人領(lǐng)域的數(shù)據(jù)極其有限,難以通過大規(guī)模數(shù)據(jù)訓練模型來實現(xiàn)奇跡。因此,如何在商業(yè)落地的過程中高效收集高質(zhì)量的數(shù)據(jù),將成為決定公司長期競爭力的關(guān)鍵因素。

報告緣起:AI算法快速迭代帶來機器人產(chǎn)業(yè)關(guān)注度持續(xù)提升。

近年來,隨著人工智能技術(shù)的快速發(fā)展,機器人領(lǐng)域也迎來了新的機遇和挑戰(zhàn)。OpenAI、Google等AI公司持續(xù)推出以Sora、RT-2等為代表的多模態(tài)模型,引起了公眾對于計算機視覺以及多領(lǐng)域融合的興趣,使得機器人板塊的整體關(guān)注度持續(xù)提升。

2024年3月17日,OpenAI與人形機器人初創(chuàng)公司Figure合作推出了Figure 01機器人。一段長達2分35秒的視頻展示了Figure 01驚人的理解、判斷、行動和自我評估能力,迅速在網(wǎng)絡(luò)上引發(fā)了廣泛關(guān)注和討論。值得注意的是,F(xiàn)igure公司此前已經(jīng)從亞馬遜創(chuàng)始人貝索斯、英偉達、OpenAI和微軟等科技巨頭處籌集了約6.75億美元的資金,公司估值也因此達到了26億美元。Figure 01機器人的亮相,再次將機器人、具身智能等推向了公眾討論的焦點。

隨著人工智能算法的不斷迭代優(yōu)化,機器人在感知、理解、決策等方面的能力料將不斷提升,其商業(yè)化應(yīng)用前景也將更加廣闊。本篇報告將深入分析當前機器人行業(yè)的發(fā)展現(xiàn)狀,并對其未來的商業(yè)化前景進行展望。

具身智能:感知、決策、控制三大部分結(jié)合機械件。

具身智能(Embodied Intelligence)是一種高級的機器智能形式,它使機器人能夠像人類一樣感知和理解環(huán)境,并通過自主學習和適應(yīng)性行為來完成任務(wù)。具身智能的實現(xiàn)過程可以抽象為感知、決策和控制三個主要環(huán)節(jié)。

感知層負責獲取和處理環(huán)境信息,為智能體的決策和行為提供依據(jù)。這可以通過兩種方式實現(xiàn):一是全感知,即構(gòu)建一個包含操作環(huán)境各種知識的大規(guī)模數(shù)據(jù)庫;二是具身交互感知,即通過智能體與環(huán)境的實時交互獲取感知反饋,并利用物理定律和數(shù)據(jù)驅(qū)動的方法構(gòu)建準確的環(huán)境表征。

決策層是具身智能的核心,需要類似人類大腦的處理能力,以滿足機器人在理解指令、分解任務(wù)、規(guī)劃子任務(wù)、識別物體等方面的需求。傳統(tǒng)機器人在多維度人機交互方面存在難題,而RT-2、GPT等大模型的突破為解決這一問題提供了新思路。這些模型可以充當機器人的"大腦",利用其強大的語言理解和生成能力,與人類進行多維度交互,更好地理解指令和意圖,生成恰當?shù)捻憫?yīng)和行為。

控制層根據(jù)感知信息和決策指令,協(xié)調(diào)機器人各部件的運動,實現(xiàn)智能化的行為控制。多傳感器融合是控制層的重要方面,通過綜合利用多種傳感器信息,提高機器人對環(huán)境的感知和理解能力,實現(xiàn)更具魯棒性和適應(yīng)性的控制。

算法方案:端到端模型(VLA)與分層決策模型。

機器人算法與該行熟悉的語言類模型有所不同,主要區(qū)別在于機器人面對的外界信息都是未知的,因此無法直接照搬語言模型中的Transformer架構(gòu)。當前具身智能的算法路徑主要分為兩條:

1)以O(shè)penAI與Figure合作的Figure01為代表的分層決策模型。它通常分為三層:策略控制系統(tǒng)(SLC)通過大模型整合任務(wù)、環(huán)境和本體感知信息;環(huán)境交互的控制系統(tǒng)(ELC)通過具身模型實現(xiàn)環(huán)境感知和動作規(guī)劃;行為控制系統(tǒng)(PLC)通過傳統(tǒng)控制算法輸出機器人控制的力矩實現(xiàn)最終動作。這種分層架構(gòu)實現(xiàn)難度相對簡單,但不同步驟間的融合和一致性是主要難點。

2)由Google RT-2為代表的端到端模型,它首先在大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)上預(yù)訓練VLMs,然后在機器人任務(wù)上微調(diào)。輸入是任務(wù)和對象的組合,輸出是一系列動作,利用一個神經(jīng)網(wǎng)絡(luò)完成從輸入到感知、推理、決策和行為指令輸出的全過程。端到端方案看起來更加完美,谷歌也表示在RT-2模型中觀察到了涌現(xiàn)能力,Scaling是其繼續(xù)迭代的一條穩(wěn)定路徑,但端到端模型在當前存在一定問題:首先需要海量數(shù)據(jù)進行訓練才能泛化;全程調(diào)用大模型,資源消耗巨大,機器人執(zhí)行動作緩慢。

總體來看,無論何種算法方案,都需要搭建起一套完整數(shù)據(jù)收集系統(tǒng),形成一個數(shù)據(jù)飛輪幫助scaling law的實現(xiàn),這一套完整循環(huán)框架是當前機器人算法公司的核心競爭力。

商業(yè)化進展:通用型與人形機器人之爭。

具身智能機器人最終需要具備移動能力和通用操作能力。移動能力可以通過雙足、四足或輪式等方式實現(xiàn)。通用型機器人(四足、輪式)的優(yōu)勢在于移動能力實現(xiàn)的門檻較低,相較于雙足重心等問題處理方式相對簡單,成本整體較低。雙足(即人形)技術(shù)已經(jīng)能夠在平地行走,但在上下樓梯等復(fù)雜場景中還有待解決,不過技術(shù)路徑相對明確。機器人的通用操作能力是指機器人能夠在各種環(huán)境中,使用機械臂和靈巧手完成不同任務(wù),甚至是任務(wù)組合,體現(xiàn)出泛化性。當前,無論是人形還是通用機器人通用操作的技術(shù)路徑尚不確定,業(yè)界主要從封閉場景的簡單操作開始落地。

該行認為,通用機器人相比人形雙足(移動)更有可能先實現(xiàn)商業(yè)化,且商業(yè)價值更大。人類大多數(shù)操作都是由上肢和手完成的。由于機械臂技術(shù)已經(jīng)相對成熟,使用夾爪或靈巧手就可以解決部分操作場景。此外,輪式底盤在大多數(shù)平面場景中,在穩(wěn)定性、魯棒性、成本和電池續(xù)航等方面都遠超人形雙足。但在家庭場景,成為通用服務(wù)機器人,可能還是需要雙足。

通用操作的實現(xiàn)是一個逐步發(fā)展的過程。目前無論是分層模型還是端到端模型,都處于類似自動駕駛L2初期的水平。但從L2到L4的過程中,存在大量可商業(yè)化的場景。未來最先實現(xiàn)商業(yè)落地的泛化機器人可能是移動抓取和放置(mobile pick-and-place),可以將其視為一項可操作不同物體的技能。這項技能會從簡單環(huán)境和少量操作對象,向復(fù)雜環(huán)境和多種操作對象發(fā)展。

中短期內(nèi),機器人可能進入工廠(搬運、分揀、擰螺絲)、藥店/超市(分揀、補貨)、商用清潔(立體清潔)等封閉或半結(jié)構(gòu)化場景。當前國內(nèi)的機器人公司以通用型為主,雙足類機器人進展相對較慢。國內(nèi)通用型機器人基本采用四足形態(tài)(機器狗),代表的廠家包括宇樹科技、云深處、銀河通用、智元機器人、小米以及蔚藍科技等,領(lǐng)先的廠商目前已經(jīng)能夠維持盈利狀態(tài)。展望商業(yè)化的下一步,主要目標是能夠通過機器人完成更加精細化的動作,當前機械部分的困難較小,算法層面直接決定了下一步的商業(yè)化速度。

風險因素:

全球經(jīng)濟增速放緩導致下游需求不及預(yù)期的風險;持續(xù)高通脹導致機器人企業(yè)成本上升和利潤率下降的風險;全球半導體芯片短缺持續(xù)加劇對機器人產(chǎn)業(yè)鏈的沖擊風險;機器人技術(shù)發(fā)展和產(chǎn)業(yè)化進程不及預(yù)期的風險;人工智能技術(shù)創(chuàng)新和算法迭代速度放緩的風險;機器人安全性、可靠性事故引發(fā)的法律訴訟和聲譽損失風險;人才競爭加劇導致企業(yè)研發(fā)和管理成本上升的風險等。

智通聲明:本內(nèi)容為作者獨立觀點,不代表智通財經(jīng)立場。未經(jīng)允許不得轉(zhuǎn)載,文中內(nèi)容僅供參考,不作為實際操作建議,交易風險自擔。更多最新最全港美股資訊,請點擊下載智通財經(jīng)App
分享
微信
分享
QQ
分享
微博
收藏