2025年國(guó)務(wù)院政府工作報(bào)告提出,將建未來(lái)產(chǎn)業(yè)投入增長(zhǎng)機(jī)制,培育生物制造、量子科技、具身智能、6G等未來(lái)產(chǎn)業(yè)。其中,首次寫入政府工作報(bào)告的具身智能,成為科技界的熱詞。目前,包括北京在內(nèi)的全國(guó)多地都已開(kāi)始布局具身智能等人工智能(AI)技術(shù)產(chǎn)業(yè)發(fā)展。
雖有ChatGPT、DeepSeek珠玉在前,但人們對(duì)人工智能的需求已不滿足于這類大語(yǔ)言模型,而是希望研發(fā)和使用擁有具身智能的人工智能,這將是未來(lái)極具潛力的重要發(fā)展方向。
仿生人是具身智能的核心
其實(shí),具身智能的概念早已有之,只不過(guò)當(dāng)時(shí)未能實(shí)現(xiàn)。1945年,法國(guó)哲學(xué)家莫里斯·梅洛-蓬蒂提出了“具身性”概念,指出人是通過(guò)身體與周圍環(huán)境進(jìn)行互動(dòng)和感知,進(jìn)而理解世界。在此基礎(chǔ)上,被譽(yù)為“AI之父”的英國(guó)科學(xué)家圖靈1950年在其論文《計(jì)算機(jī)器與智能》中首次提出具身智能(Embodied Intelligence)這一概念。
中國(guó)計(jì)算機(jī)學(xué)會(huì)給具身智能下的定義是,一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),能通過(guò)智能體與環(huán)境的交互獲取信息、理解問(wèn)題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。2024世界機(jī)器人大會(huì)發(fā)布《人形機(jī)器人十大趨勢(shì)展望》,提出具身智能是可以在重大變化下做出迅猛、精準(zhǔn)反應(yīng)的高質(zhì)量、高性能智能系統(tǒng)。它既不是單純虛擬環(huán)境下的計(jì)算機(jī)仿真,也不是完全偏于物理空間的機(jī)電系統(tǒng),而是與人形機(jī)器人系統(tǒng)緊密相關(guān)。
在現(xiàn)實(shí)中,人們最希望研發(fā)的是擁有具身智能的人形機(jī)器人,也就是讓人工智能融入機(jī)器,讓機(jī)器像人一樣感知、學(xué)習(xí)和與環(huán)境動(dòng)態(tài)交互,并擇機(jī)行動(dòng)。
人工智能有弱人工智能、強(qiáng)人工智能和超人工智能,具身智能屬于強(qiáng)人工智能,是人們最能接受也最適合人的人工智能。因?yàn)榫呱碇悄芸梢跃哂邢袢艘粯拥闹悄?,能與人、生物、環(huán)境互動(dòng),可以學(xué)習(xí)并采取自主行動(dòng),但不會(huì)超越人,比起超人工智能而言,是令人放心的存在。這就注定了具身智能是人類下一步會(huì)選擇的最理想的人工智能。
像人一樣的具身智能,需具備像人一樣的感官系統(tǒng)、大腦神經(jīng)系統(tǒng)和骨骼肌肉運(yùn)動(dòng)系統(tǒng),這其實(shí)就是仿生人。人的感官是眼耳鼻舌身(皮膚),負(fù)責(zé)接收外部世界的各種信息。人腦在接收信息后,通過(guò)大腦自主學(xué)習(xí)、思考、規(guī)劃,并做出決策。同時(shí),大腦和小腦也負(fù)責(zé)運(yùn)動(dòng)控制,從行走到跑跳,以及從簡(jiǎn)單抓取到復(fù)雜的手部動(dòng)作等。
以擁有具身智能的人形機(jī)器人為例,它需要有接收感應(yīng)的裝置,主要是攝像頭、紅外線、雷達(dá)等,其大腦就是芯片處理器和軟件系統(tǒng),能接收攝像頭、紅外線等所傳遞的外部環(huán)境各種信息,進(jìn)行分析和決策,并支配四肢和軀體動(dòng)作,最后像人一樣運(yùn)動(dòng)和完成工作。因此,人形機(jī)器人可以在多個(gè)領(lǐng)域大顯身手,如應(yīng)用于智能制造、智能家居、智慧醫(yī)療、智能服務(wù)、智能交通等方面。
無(wú)人駕駛具身智能已初步成熟
比較能體現(xiàn)和發(fā)展具身智能的領(lǐng)域是無(wú)人駕駛。現(xiàn)在,全球都在研發(fā)和嘗試運(yùn)營(yíng)無(wú)人駕駛,中國(guó)的武漢已經(jīng)有1萬(wàn)多輛無(wú)人駕駛汽車在大街小巷穿行,北京也在試運(yùn)營(yíng)無(wú)人駕駛汽車。
無(wú)人駕駛就像人工駕駛一樣,需要感知、決策和執(zhí)行。無(wú)人駕駛汽車通過(guò)攝像頭、雷達(dá)和地圖等手段感知周圍障礙物和道路的信息;然后,決定走什么路徑,采用什么車速;最后,將決策轉(zhuǎn)化成剎車、油門和轉(zhuǎn)向信號(hào),控制車輛按照預(yù)期目標(biāo)行駛。具體來(lái)說(shuō),無(wú)人駕駛汽車需要對(duì)所獲得的周圍環(huán)境數(shù)據(jù)進(jìn)行處理和融合,生成對(duì)環(huán)境的準(zhǔn)確表示。在了解周圍環(huán)境和自身位置的基礎(chǔ)上,無(wú)人駕駛汽車的控制系統(tǒng)會(huì)生成相應(yīng)的控制指令(如加速、減速、轉(zhuǎn)向、剎車等),再通過(guò)車輛的各種執(zhí)行器(如油門、剎車、轉(zhuǎn)向系統(tǒng)等)予以實(shí)施,就如同人在駕駛車輛一樣。
無(wú)人駕駛汽車的控制系統(tǒng)無(wú)論是裝在車上還是裝在人形機(jī)器人駕駛員的大腦內(nèi),想要行使功能,都需要擁有具身智能,這一智能是由人使用世界模型(World Model)來(lái)教會(huì)的。世界模型是人工智能算法模型的一種新概念,旨在模仿人類和動(dòng)物,通過(guò)觀察與交互來(lái)學(xué)習(xí)關(guān)于世界運(yùn)作方式的知識(shí)。
簡(jiǎn)單總結(jié)一下,無(wú)人駕駛的具身智能主要體現(xiàn)在感受和執(zhí)行世界模型這兩方面。一方面,感受由傳感和感知構(gòu)成,傳感獲得的是傳感器的原始數(shù)據(jù)(如圖片),而感知是對(duì)從攝像頭、雷達(dá)傳來(lái)的信息進(jìn)行認(rèn)知處理(如圖片內(nèi)容是人還是動(dòng)物、是否在運(yùn)動(dòng))。另一方面,各類傳感器經(jīng)由算法處理后得到的障礙物、車道等信息往往存在矛盾,比如,雷達(dá)看到前方有一個(gè)障礙物而攝像頭認(rèn)為沒(méi)有,這時(shí)就需要增加融合模塊來(lái)綜合分析,對(duì)矛盾的信息作進(jìn)一步的融合與預(yù)測(cè),也就是采用世界模型來(lái)處理。世界模型的核心職責(zé)就是通過(guò)融合來(lái)理解當(dāng)下環(huán)境要素的屬性和關(guān)系,并配合先驗(yàn)的規(guī)律做出預(yù)測(cè)和判斷,然后發(fā)出指令,這個(gè)時(shí)間跨度可以從幾毫秒到幾小時(shí)。
現(xiàn)在,無(wú)人駕駛的具身智能已經(jīng)初步成熟。就中國(guó)而言,無(wú)人駕駛技術(shù)水平已進(jìn)入世界第一梯隊(duì),且擁有約43%的全球自動(dòng)駕駛發(fā)明專利。但從世界上這一領(lǐng)域的總體發(fā)展情況來(lái)看,無(wú)人駕駛汽車的具身智能還需要極大提升。
2024年6月,《自然-通訊》發(fā)表的一篇論文對(duì)真實(shí)世界中無(wú)人駕駛汽車的安全性進(jìn)行了全面分析。對(duì)2016年至2022年間2100個(gè)配備有高級(jí)自動(dòng)駕駛系統(tǒng)和高級(jí)輔助駕駛系統(tǒng)的車輛,以及35133輛人類駕駛車輛的事故數(shù)據(jù)(主要來(lái)自美國(guó)加州)進(jìn)行了對(duì)比,結(jié)果顯示,在大多數(shù)場(chǎng)景下無(wú)人駕駛汽車導(dǎo)致的事故比人類駕駛汽車更少。但是,在特定情境下無(wú)人駕駛汽車似乎更易發(fā)生事故,如晨昏弱光環(huán)境下和轉(zhuǎn)彎時(shí),事故率分別是人類駕駛的5.25倍和1.98倍。
手術(shù)機(jī)器人“巧手”突破人類極限
前段時(shí)間人們津津樂(lè)道的AI+醫(yī)生只是人工智能應(yīng)用于醫(yī)療的初級(jí)階段,它是一種診斷軟件,可以幫助醫(yī)生會(huì)診和提出治療方案。到了中高級(jí)階段,擁有具身智能的人形機(jī)器人可以做到問(wèn)診患者甚至實(shí)施手術(shù),其手部的靈巧性、精確性將更勝一籌。
早已進(jìn)入一些國(guó)家臨床醫(yī)療的達(dá)芬奇手術(shù)機(jī)器人具有“少量”的具身智能,畢竟它還需要外科醫(yī)生來(lái)操作。
達(dá)芬奇手術(shù)機(jī)器人是一個(gè)系統(tǒng),由3個(gè)部分組成:主刀醫(yī)師操作控制臺(tái);三維成像視頻影像平臺(tái);機(jī)械臂、攝像臂和手術(shù)器械組成的移動(dòng)平臺(tái)。實(shí)施手術(shù)時(shí),主刀醫(yī)生不與患者直接接觸,通過(guò)三維視覺(jué)系統(tǒng)和動(dòng)作定標(biāo)系統(tǒng)操作控制,由機(jī)械臂及手術(shù)器械來(lái)完成醫(yī)生的技術(shù)動(dòng)作和手術(shù)操作。其中,三維成像視頻影像平臺(tái)就像人的眼睛,機(jī)械臂、攝像臂和手術(shù)器械組成的移動(dòng)平臺(tái)類似人的上下肢,不過(guò)操控的大腦還是人類醫(yī)生。
即便如此,手術(shù)機(jī)器人的感知系統(tǒng)和上肢、手部動(dòng)作也比人更有優(yōu)勢(shì)。3D高清影像技術(shù)可以為主刀醫(yī)生提供高清晰和全方位立體式手術(shù)視野,對(duì)手術(shù)的局部位置視野放大15倍,不僅能精確定位手術(shù)部位,還能讓醫(yī)生看得更清楚。醫(yī)生操控的機(jī)器人手指可以突破人手不可能完成的極限,實(shí)現(xiàn)360°旋轉(zhuǎn),在有限的空間內(nèi)多個(gè)維度任意變換操作姿勢(shì)。機(jī)器人手指可以使用手術(shù)刀、剪刀、鑷子或縫線所需的持針器,快速完成切割、電燒、縫合、打結(jié)等動(dòng)作,其精確度和靈巧度比人的雙手有過(guò)之而無(wú)不及。手術(shù)機(jī)器人還擁有“三頭六臂”(有多個(gè)微創(chuàng)手術(shù)刀和可旋轉(zhuǎn)支架,能使微創(chuàng)手術(shù)刀旋轉(zhuǎn)到患者的任何部位),這使得它能夠完成一個(gè)手術(shù)團(tuán)隊(duì)的全部工作,減少了配合失誤,更容易實(shí)現(xiàn)主刀醫(yī)生的意圖。
2000年,美國(guó)食品與藥物管理局(FDA)批準(zhǔn)使用由美國(guó)直覺(jué)外科公司設(shè)計(jì)和制造的達(dá)芬奇手術(shù)機(jī)器人。第四代達(dá)芬奇手術(shù)機(jī)器人(達(dá)芬奇Xi系統(tǒng))于2015年上市。2023年,中國(guó)復(fù)星醫(yī)藥研制的首臺(tái)國(guó)產(chǎn)達(dá)芬奇Xi手術(shù)機(jī)器人獲得國(guó)家藥監(jiān)局批準(zhǔn)。
中國(guó)的達(dá)芬奇Xi手術(shù)機(jī)器人具有三維高清視野、可轉(zhuǎn)腕手術(shù)器械和直覺(jué)式動(dòng)作控制三大特性,可以將外科醫(yī)生手部動(dòng)作的顫抖自動(dòng)濾除并轉(zhuǎn)換成更精準(zhǔn)的動(dòng)作,其彎曲及旋轉(zhuǎn)程度遠(yuǎn)超人手極限,讓機(jī)器人輔助手術(shù)變成了現(xiàn)實(shí)。目前,達(dá)芬奇手術(shù)機(jī)器人已經(jīng)廣泛應(yīng)用于成人和兒童的普通外科、胸外科、泌尿外科、婦產(chǎn)科、頭頸外科,以及心臟手術(shù)。
總體來(lái)看,達(dá)芬奇手術(shù)機(jī)器人的具身智能還是相當(dāng)有限的,但不能否認(rèn)它為外科手術(shù)帶來(lái)了巨大改變,全球現(xiàn)有超1200萬(wàn)名患者接受過(guò)達(dá)芬奇手術(shù)機(jī)器人的服務(wù)。未來(lái),科學(xué)家將致力于研發(fā)擁有具身智能的人形手術(shù)機(jī)器人,能大部分或全部取代人類外科醫(yī)生,親自實(shí)施手術(shù)。當(dāng)然,一個(gè)重要前提是,由人類外科醫(yī)生監(jiān)管整個(gè)手術(shù)過(guò)程,如發(fā)現(xiàn)異常,立即停止機(jī)器人的操作,并接管手術(shù)。
“助老”先要模擬人的真實(shí)感覺(jué)
擁有具身智能的機(jī)器人現(xiàn)在和未來(lái)有個(gè)最廣泛的需求,就是照料老人。
今年2月,國(guó)際電工委員會(huì)(IEC)發(fā)布了由中國(guó)牽頭制定的養(yǎng)老機(jī)器人國(guó)際標(biāo)準(zhǔn)《互聯(lián)家庭環(huán)境下使用的主動(dòng)輔助生活機(jī)器人性能準(zhǔn)則》,該標(biāo)準(zhǔn)依據(jù)老年人生理和行為特點(diǎn),為各類養(yǎng)老機(jī)器人的產(chǎn)品設(shè)計(jì)、制造、測(cè)試和認(rèn)證等提供基準(zhǔn)。現(xiàn)在已有一些科技產(chǎn)品進(jìn)入市場(chǎng),比如,江蘇無(wú)錫研發(fā)的“大頭阿亮”智能養(yǎng)老機(jī)器人,能按時(shí)提醒老人吃藥、吃飯、休息,還可播放新聞、協(xié)助網(wǎng)購(gòu);北京為700多戶老人配備的養(yǎng)老機(jī)器人,可呼叫家政服務(wù)、緊急呼救等。
養(yǎng)老機(jī)器人普遍整合了掃地機(jī)、洗碗機(jī)、手機(jī)、輪椅的功能,能提供日常清潔、餐飲服務(wù),還能陪伴交流,但只是有一定程度的具身智能。姑且不要求養(yǎng)老機(jī)器人會(huì)獨(dú)立做飯,即便是低要求的具身智能,如像人一樣能為失能老人端飯倒茶、攙扶老人行走等,都還不能實(shí)現(xiàn)。
理想中的具身智能要求機(jī)器人的手能伸、握、捏,抓取東西、旋轉(zhuǎn)開(kāi)瓶蓋,有溫覺(jué)、痛覺(jué)、觸覺(jué)(如發(fā)現(xiàn)水溫不舒適,不能遞給老人飲用)等。目前,研究人員正在努力讓機(jī)器人的手具有人的真實(shí)感覺(jué)。最近,美國(guó)約翰斯·霍普金斯大學(xué)研發(fā)的仿生手達(dá)到具身智能的新高度,仿生手的觸覺(jué)反饋?zhàn)屗梢?ldquo;感知”物體,能穩(wěn)穩(wěn)抓住水瓶,也能輕輕捏起裝滿水的塑料杯卻不會(huì)弄壞它。
這種仿生手通過(guò)3個(gè)要件來(lái)體現(xiàn)具身智能:一是傳感器探知環(huán)境;二是控制系統(tǒng)將數(shù)據(jù)轉(zhuǎn)為神經(jīng)信號(hào);三是刺激神經(jīng)傳遞觸覺(jué)。仿生手在觸摸物體時(shí)產(chǎn)生觸覺(jué),這些觸覺(jué)通過(guò)電流傳導(dǎo)到人工大腦(控制器),然后,機(jī)器學(xué)習(xí)算法會(huì)處理觸覺(jué)信號(hào)并轉(zhuǎn)化為逼真的觸感,再通過(guò)電刺激傳遞給神經(jīng),讓仿生手“感覺(jué)”到手里的東西,從而做出種種適合于人、物體和場(chǎng)景的動(dòng)作。可想而知,如果這樣的仿生手、仿生腳安裝在人形機(jī)器人身上,那它就會(huì)擁有像人一樣的觸覺(jué)、感覺(jué)、知覺(jué),成為更好的具身智能。
總之,作為人工智能與機(jī)器人學(xué)交叉的前沿領(lǐng)域,具身智能蘊(yùn)含著巨大的市場(chǎng)潛力和發(fā)展機(jī)遇。而如何制定具身智能技術(shù)倫理和道德準(zhǔn)則來(lái)確保其良性發(fā)展,也是個(gè)同樣迫切的問(wèn)題。只有技術(shù)突破和管理相結(jié)合,以及價(jià)格親民,具身智能才會(huì)真正來(lái)到人們身邊。
已有0人發(fā)表了評(píng)論