五月天综合久久久,亚洲中文字幕无码永久在线观看

人形機(jī)器人，怎么又行了？

鋅產(chǎn)業(yè) ·

山竹

2023/07/14

我們現(xiàn)在已經(jīng)清晰地看到了一條路，一條在三年、五年內(nèi)有可能跑出通用人形機(jī)器人平臺，甚至在某些特定場景中跑出人形機(jī)器人產(chǎn)品的路。

本文來自于微信公眾號“鋅產(chǎn)業(yè)”（ID：xinchanye2021），作者：山竹，投融界經(jīng)授權(quán)發(fā)布。

在剛剛過去的WAIC2023上，沒到現(xiàn)場的馬斯克，把“擎天柱”派到了現(xiàn)場……

盡管這臺人形機(jī)器人被放在了罩子，在現(xiàn)場也沒有做什么表演或動作展示，但在會場中依然被幾度圍觀。

再結(jié)合馬斯克在開幕式視頻演講中發(fā)表了的觀點：

“在將來某個時刻，地球上機(jī)器人與人類的比例可能會超過1：1，這意味著機(jī)器人的數(shù)量將超過人類，甚至?xí)嗪芏??！?/span>

人形機(jī)器人無疑成了WAIC2023上關(guān)注度最高的一個話題。

人形機(jī)器人，怎么又行了？

實際上，我們發(fā)現(xiàn)，WAIC2023上，僅僅是關(guān)于人形機(jī)器人的主題論壇就有不下五個，參展機(jī)器人廠商更是超過了20家。

此外，據(jù)鋅產(chǎn)業(yè)了解，現(xiàn)在國內(nèi)但凡機(jī)器人做得還不錯的團(tuán)隊，不少都已經(jīng)開始涉足人形機(jī)器人領(lǐng)域。

除了康復(fù)機(jī)器人領(lǐng)域獨角獸企業(yè)傅利葉智能在WAIC2023期間首發(fā)人形機(jī)器人外，今年下半年我們將會看到有更多人形機(jī)器人面世。

似乎，一夜之間，人形機(jī)器人猶如雨后春筍般，從各地相繼冒出。

為什么圈內(nèi)人都覺得，人形機(jī)器人真得又行了呢？

暴力美學(xué)造就通用AI

大家之所以會覺得人形機(jī)器人又行了，同樣和現(xiàn)在科技圈最火爆的大模型不無關(guān)系。

2022年11月30日，ChatGPT正式問世，隨后，ChatGPT僅僅用了兩個月，就擁有了1億用戶。

一個對比數(shù)據(jù)是，增長到1億用戶量，F(xiàn)acebook用了4.5年，Instagram用了2.5年，即便是如今仍屬新鮮事物的TikTok也用了9個月。

之所以列出這么一組數(shù)據(jù)，是為了更直觀地體現(xiàn)ChatGPT當(dāng)時在全球的火爆程度，而一般這樣全球性的現(xiàn)象級產(chǎn)品，必有其顛覆性所在。

ChatGPT的顛覆性在于它的“通用性”，準(zhǔn)確地說，應(yīng)該是人工智能的通用性。

ChatGPT的背后，是一家曾經(jīng)少有人知（至少在國內(nèi)是），如今卻無人不知的AI創(chuàng)業(yè)團(tuán)隊OpenAI，這個創(chuàng)業(yè)團(tuán)隊最早是由特斯拉創(chuàng)始人馬斯克、PayPal創(chuàng)始人彼得·蒂爾、YC創(chuàng)始人利文斯頓，以及現(xiàn)在OpenAI的掌舵人奧特曼等硅谷大佬創(chuàng)辦，目的就是為了研究人工智能技術(shù)。

當(dāng)然，據(jù)馬斯克曾經(jīng)透露，創(chuàng)立OpenAI其實還有另一個原因，是幾位大佬為了聯(lián)合對抗谷歌的AI霸權(quán)。

人形機(jī)器人，怎么又行了？

這樣的硅谷最強(qiáng)天團(tuán)，既不缺錢，也不缺資源，于是他們走了一條別人敢想不敢干的路——用巨量算力資源訓(xùn)練一個巨量參數(shù)的通用人工智能大模型，也就是LLM，通用大語言模型。

這里我們再列舉兩個數(shù)據(jù)來看一下，LLM訓(xùn)練究竟有多消耗資源：

GPT-3使用1萬塊V100GPU，花了30天才訓(xùn)練完了1750億參數(shù)，訓(xùn)練一次要消耗19萬度電，整體訓(xùn)練成本約為140萬美元；

GPT-4參數(shù)規(guī)模更是達(dá)到了1.76萬億個，理論上來說，消耗資源量至少是GPT-3的10倍。

我們完全有理由認(rèn)為，這是一群科學(xué)瘋子，在通過巨量資源嘗試引發(fā)一次AI質(zhì)變，他們信奉的是暴力美學(xué)。

幸運的是，他們成功地訓(xùn)練出了通用大語言模型，這從ChatGPT問世后的使用效果和科技巨頭的追捧熱度就能有一個直觀感受。

人形機(jī)器人，怎么又行了？

那么，通用大語言模型，能為人形機(jī)器人帶來什么呢？

人形機(jī)器人的死亡陷阱

人形機(jī)器人一直被認(rèn)為是機(jī)器人的終極形態(tài)。

之所以如此，是因為，人形機(jī)器人理論上可以完成所有人類在做的非標(biāo)任務(wù)。

因而，幾乎每個機(jī)器人創(chuàng)業(yè)團(tuán)隊，或多或少都有過搞人形機(jī)器人的念頭。

在之前很長一段時間里，大概是早稻田大學(xué)搞出WABOT后，人形機(jī)器人一直處于一個在硬件能力上尋求突破的階段。當(dāng)時大家都是在想，如何通過工程結(jié)構(gòu)、制造能力、系統(tǒng)動力學(xué)來讓人形機(jī)器人像人一樣地動起來。

于是，在過去幾十年里，隨著機(jī)器人的電機(jī)、控制器、減速器等核心器件的工藝、性能不斷提升，以及機(jī)器人系統(tǒng)能力逐漸完善，人形機(jī)器人最終如愿逐漸能夠走了起來。

我們看到，本田在1972年搞出了阿西莫（ASIMO）震驚行業(yè)，波士頓動力在2016年亮出了Atlas秀翻全網(wǎng)。

就在波士頓動力Atlas在網(wǎng)上又是表演后空翻，又是表演踩梅花樁時，一個一直未能解決的問題——商業(yè)化問題，讓波士頓動力始終困于熒幕之上、網(wǎng)絡(luò)之中。

我們看到，無法很好地實現(xiàn)商業(yè)化的波士頓動力，在最近十年里相繼被最喜歡工程師的谷歌、最喜歡機(jī)器人的軟銀先后收購后，最終又轉(zhuǎn)手給了現(xiàn)代汽車。

汽車工業(yè)是自動化、信息化最高一個場景，也被認(rèn)為是軍工之外最有可能率先用上波士頓動力四足機(jī)器人，甚至人形機(jī)器人的地方。

2021年6月，波士頓動力正式歸于現(xiàn)代汽車門下，而這很有可能將是他們最后一站，如果這一站商業(yè)化再沒什么成果，人形機(jī)器人很有可能會再次掉入死亡曲線中的又一個低谷，沉寂再所難免。

可能有人會問，為什么人形機(jī)器人這么難商業(yè)化？

這是因為人形機(jī)器人是完全仿照人的外形研發(fā)的一種機(jī)器人，因而天然需要面對更復(fù)雜的、不確定的場景。

這有點類似人工智能技術(shù)的發(fā)展，會下棋的AlphaGo只能算是專用人工智能，這種專用人工智能算法研發(fā)只需要瞄著一個應(yīng)用場景，用大量數(shù)據(jù)一直進(jìn)行訓(xùn)練，總有修成神功的一天。

對應(yīng)到機(jī)器人領(lǐng)域，面向各類工業(yè)環(huán)境研發(fā)的專用機(jī)械臂已經(jīng)十分成熟，尤其在汽車工業(yè)的沖壓、焊接、噴涂、總裝等環(huán)節(jié)中早已有了廣泛應(yīng)用，這也就是為什么工業(yè)機(jī)器人在全球能有超過1400億產(chǎn)值規(guī)模的主要原因。

人形機(jī)器人要解決的不是這些問題，或者說人們期望作為機(jī)器人終極形態(tài)的人形機(jī)器人要解決的，不是這類問題，而是真實世界中更復(fù)雜的問題，這就需要解決機(jī)器人的通用性問題。

我們這里先說一下人工智能的本質(zhì)，我的簡單理解是：

人工智能的本質(zhì)就是算法。

算法應(yīng)用到軟件上，就形成了有智能推薦系統(tǒng)的搜索引擎、有智能客服系統(tǒng)的電商平臺；

算法應(yīng)用到硬件上，就形成了有智能語音系統(tǒng)的音箱、有智能規(guī)劃系統(tǒng)的掃地機(jī)器人。

所以，當(dāng)通用大語言模型這樣的通用人工智能算法出現(xiàn)后，苦苦尋找提升人形機(jī)器人通用性的機(jī)器人團(tuán)隊，就興奮了起來。

人形機(jī)器人+通用大語言模型，不就有了通用人形機(jī)器人了嗎？

具身智能，一次機(jī)器人的能力泛化

在討論具身智能之前，我們先要做一個假設(shè)：

假設(shè)人形機(jī)器人所需要的電機(jī)的扭矩密度、電池的能量密度都已經(jīng)足以支撐人形機(jī)器人進(jìn)行各種高強(qiáng)度運動，控制器、減速器也都已經(jīng)不是問題。

這時候，軟實力就變得尤為重要，而以ChatGPT為代表的通用大語言模型，顯然已經(jīng)為人形機(jī)器人打了一個樣兒。

ChatGPT當(dāng)然可以直接應(yīng)用到人形機(jī)器人上，這就能讓人形機(jī)器人在對我們這個真實世界的認(rèn)知上，有一個極大的提升，人機(jī)交互能力也會有一個階躍式提升。

這也是為什么今年上半年，阿里、百度分別將通用大語言模型首先加載到了旗下天貓精靈、小度智能音箱上，這也或?qū)⑹俏覀冋嬲叱鋈跞斯ぶ悄艿牡谝徊健?/span>

不過，人形機(jī)器人，目前當(dāng)務(wù)之急，還是將運動能力提上去，如果以人類運動能力為標(biāo)準(zhǔn)的話，至少要讓人形機(jī)器人能先達(dá)到及格線以上。

是的，現(xiàn)在市面上大家能看到的人形機(jī)器人，即便是最基本的運動能力，仍處在及格線以下（不是說人形機(jī)器人的運動能力差，實在是人類運動能力太強(qiáng)了），這是當(dāng)下行業(yè)的一個普遍共識。

而據(jù)鋅產(chǎn)業(yè)了解，現(xiàn)在已經(jīng)有機(jī)器人公司在通過ChatGPT提升人形機(jī)器人運動能力，例如優(yōu)必選就已經(jīng)在用類ChatGPT大模型做運動規(guī)劃，通過大模型做長序列、長周期的動作序列拆解。

通過大模型做人形機(jī)器人的運動規(guī)劃的好處是，可以提升機(jī)器人在動作執(zhí)行過程中的決策和規(guī)劃能力。

這其中體現(xiàn)大模型通用性的，是一個被稱作“泛化”的能力。

我是在清華大學(xué)交叉信息研究院助理教授許華哲的演講中了解的這個概念，他用機(jī)器人切豆腐為例解釋了泛化能力對于具身智能的重要性：

一臺機(jī)器人學(xué)會用一把刀切豆腐后，當(dāng)這把刀的顏色、姿態(tài)、位置無論怎樣變化，這臺機(jī)器人都能識別出這把刀，并完成切豆腐這個任務(wù)，這就是泛化能力的體現(xiàn)。

如果人形機(jī)器人在運動規(guī)劃上也有了這樣的泛化能力，那么，理論上，人形機(jī)器人只要學(xué)會在一種地形上走路，就能夠自己學(xué)會在全地形場景下自由行走。

也就是說，走路就成了人形機(jī)器人的一個目標(biāo)，人形機(jī)器人只要在一個環(huán)境下實現(xiàn)了這個目標(biāo)，就能夠在所有環(huán)境中自適應(yīng)完成目標(biāo)。

這時，機(jī)器人就從程序執(zhí)行導(dǎo)向，轉(zhuǎn)向為目標(biāo)完成導(dǎo)向。

這樣的人形機(jī)器人也就有了感知運動智能，甚至有了一定的認(rèn)知能力，人形機(jī)器人由此也就完成了一次高維進(jìn)化。

具備泛化能力，正是人形機(jī)器人成為通用機(jī)器人的第一步。

人形機(jī)器人的N種可能

首先說一個我自己的判斷：

無論是否有被冠以“通用”二字，人形機(jī)器人本質(zhì)上就是一類擁有通用能力的機(jī)器人。

如果不是為了做通用機(jī)器人，完全沒有必要做成人形。

在自動化能力更高的倉儲系統(tǒng)中，AGV效率本就更高；在汽車總裝車間里，機(jī)械臂效率也已經(jīng)很高。

如果追求極致高效，應(yīng)用于這些場景中的機(jī)器人完全沒有必要做成人形。

所以，這幾年陸續(xù)出現(xiàn)的人形機(jī)器人，某種意義上，都可以被認(rèn)為是通用人形機(jī)器人。

但人形機(jī)器人在實際應(yīng)用時，會率先在哪些場景落地？

我們現(xiàn)在能夠看到的是，特斯拉正在嘗試將人形機(jī)器人應(yīng)用于工廠中，前不久發(fā)布了人形機(jī)器人的傅利葉智能本就是醫(yī)療康養(yǎng)機(jī)器人領(lǐng)域的明星企業(yè)，養(yǎng)老、助老也就成了人形機(jī)器人落地場景之一。

顯然，制造工廠、醫(yī)療康養(yǎng)，已經(jīng)成了如今人形機(jī)器人兩個黃金賽道。

如果再往長遠(yuǎn)來看，就像大模型在各個行業(yè)中都已經(jīng)裂變出了行業(yè)大模型一樣，搭載行業(yè)大模型的人形機(jī)器人，也會隨之進(jìn)入各個行業(yè)。

不過，這其中還有兩個關(guān)鍵難題需要解決：

一個是硬件難題，關(guān)鍵零部件的技術(shù)突破，將成為擁有優(yōu)秀的運動能力的平臺級人形機(jī)器人成形的關(guān)鍵；

我們看到，國內(nèi)越來越多硬科技團(tuán)隊涌入人形機(jī)器人這一賽道中，但是人形機(jī)器人的關(guān)鍵零部件仍需進(jìn)一步突破，才能支撐起一個通用人形機(jī)器人平臺的成形。

以電機(jī)為例，目前，電機(jī)扭矩密度做得最高的是MIT和UCLA做的電機(jī)，已經(jīng)能實現(xiàn)38N.m/kg的扭矩密度，但這尚不足以支撐一臺標(biāo)準(zhǔn)體重的成年男人自由彈跳或奔跑。

一個是軟件難題，人形機(jī)器人現(xiàn)在還沒有足夠的場景數(shù)據(jù)，來在某個場景中訓(xùn)練出一個通用人工智能大模型，讓人形機(jī)器人基于此進(jìn)行自我進(jìn)化。

前文提到，以ChatGPT為代表的通用人工智能本身追求的是暴力美學(xué)，需要大量樣本數(shù)據(jù)來訓(xùn)練，才能形成具備通用知識的理解、分析、決策能力的通用人工智能大模型。

對于人形機(jī)器人而言，由于尚且沒有得到批量化應(yīng)用的場景，也就沒有這么多直接的場景數(shù)據(jù)。

例如在工業(yè)場景中，由于此前并沒有人形機(jī)器人直接參與，相應(yīng)的運行數(shù)據(jù)自然也就無從談起，可以用于人形機(jī)器人訓(xùn)練的場景數(shù)據(jù)，更多是來自空間位置數(shù)據(jù)、機(jī)械臂及制造設(shè)備的運行數(shù)據(jù)，以及工人的工作日志等。

不過，清華大學(xué)鄧志東教授也指出，大模型+思維鏈等提示詞工程，可以實現(xiàn)零樣本學(xué)習(xí)，這將推動智能機(jī)器人的產(chǎn)業(yè)落地。

總體而言，人形機(jī)器人發(fā)展道路上依然有諸多困難。

不同的是，我們現(xiàn)在已經(jīng)清晰地看到了一條路，一條在三年、五年內(nèi)有可能跑出通用人形機(jī)器人平臺，甚至在某些特定場景中跑出人形機(jī)器人產(chǎn)品的路。

就在五年前，整個行業(yè)的判斷還是要十年、二十年，乃至更長時間才能到來。

這就是當(dāng)下這個時代，一個讓機(jī)器人團(tuán)隊再次興奮起來的時代。

版權(quán)聲明本文經(jīng)授權(quán)發(fā)布，不代表投融界立場。如若轉(zhuǎn)載請聯(lián)系原作者

AI 人形機(jī)器人

評論

還可輸入300個字

發(fā)布留言