2025年國務(wù)院政府工作報告提出,將建未來產(chǎn)業(yè)投入增長機制,培育生物制造、量子科技、具身智能、6G等未來產(chǎn)業(yè)。其中,首次寫入政府工作報告的具身智能,成為科技界的熱詞。目前,包括北京在內(nèi)的全國多地都已開始布局具身智能等人工智能(AI)技術(shù)產(chǎn)業(yè)發(fā)展。
雖有ChatGPT、DeepSeek珠玉在前,但人們對人工智能的需求已不滿足于這類大語言模型,而是希望研發(fā)和使用擁有具身智能的人工智能,這將是未來極具潛力的重要發(fā)展方向。
仿生人是具身智能的核心
其實,具身智能的概念早已有之,只不過當(dāng)時未能實現(xiàn)。1945年,法國哲學(xué)家莫里斯·梅洛-蓬蒂提出了“具身性”概念,指出人是通過身體與周圍環(huán)境進行互動和感知,進而理解世界。在此基礎(chǔ)上,被譽為“AI之父”的英國科學(xué)家圖靈1950年在其論文《計算機器與智能》中首次提出具身智能(Embodied Intelligence)這一概念。
中國計算機學(xué)會給具身智能下的定義是,一種基于物理身體進行感知和行動的智能系統(tǒng),能通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實現(xiàn)行動,從而產(chǎn)生智能行為和適應(yīng)性。2024世界機器人大會發(fā)布《人形機器人十大趨勢展望》,提出具身智能是可以在重大變化下做出迅猛、精準(zhǔn)反應(yīng)的高質(zhì)量、高性能智能系統(tǒng)。它既不是單純虛擬環(huán)境下的計算機仿真,也不是完全偏于物理空間的機電系統(tǒng),而是與人形機器人系統(tǒng)緊密相關(guān)。
在現(xiàn)實中,人們最希望研發(fā)的是擁有具身智能的人形機器人,也就是讓人工智能融入機器,讓機器像人一樣感知、學(xué)習(xí)和與環(huán)境動態(tài)交互,并擇機行動。
人工智能有弱人工智能、強人工智能和超人工智能,具身智能屬于強人工智能,是人們最能接受也最適合人的人工智能。因為具身智能可以具有像人一樣的智能,能與人、生物、環(huán)境互動,可以學(xué)習(xí)并采取自主行動,但不會超越人,比起超人工智能而言,是令人放心的存在。這就注定了具身智能是人類下一步會選擇的最理想的人工智能。
像人一樣的具身智能,需具備像人一樣的感官系統(tǒng)、大腦神經(jīng)系統(tǒng)和骨骼肌肉運動系統(tǒng),這其實就是仿生人。人的感官是眼耳鼻舌身(皮膚),負(fù)責(zé)接收外部世界的各種信息。人腦在接收信息后,通過大腦自主學(xué)習(xí)、思考、規(guī)劃,并做出決策。同時,大腦和小腦也負(fù)責(zé)運動控制,從行走到跑跳,以及從簡單抓取到復(fù)雜的手部動作等。
以擁有具身智能的人形機器人為例,它需要有接收感應(yīng)的裝置,主要是攝像頭、紅外線、雷達(dá)等,其大腦就是芯片處理器和軟件系統(tǒng),能接收攝像頭、紅外線等所傳遞的外部環(huán)境各種信息,進行分析和決策,并支配四肢和軀體動作,最后像人一樣運動和完成工作。因此,人形機器人可以在多個領(lǐng)域大顯身手,如應(yīng)用于智能制造、智能家居、智慧醫(yī)療、智能服務(wù)、智能交通等方面。
無人駕駛具身智能已初步成熟
比較能體現(xiàn)和發(fā)展具身智能的領(lǐng)域是無人駕駛。現(xiàn)在,全球都在研發(fā)和嘗試運營無人駕駛,中國的武漢已經(jīng)有1萬多輛無人駕駛汽車在大街小巷穿行,北京也在試運營無人駕駛汽車。
無人駕駛就像人工駕駛一樣,需要感知、決策和執(zhí)行。無人駕駛汽車通過攝像頭、雷達(dá)和地圖等手段感知周圍障礙物和道路的信息;然后,決定走什么路徑,采用什么車速;最后,將決策轉(zhuǎn)化成剎車、油門和轉(zhuǎn)向信號,控制車輛按照預(yù)期目標(biāo)行駛。具體來說,無人駕駛汽車需要對所獲得的周圍環(huán)境數(shù)據(jù)進行處理和融合,生成對環(huán)境的準(zhǔn)確表示。在了解周圍環(huán)境和自身位置的基礎(chǔ)上,無人駕駛汽車的控制系統(tǒng)會生成相應(yīng)的控制指令(如加速、減速、轉(zhuǎn)向、剎車等),再通過車輛的各種執(zhí)行器(如油門、剎車、轉(zhuǎn)向系統(tǒng)等)予以實施,就如同人在駕駛車輛一樣。
無人駕駛汽車的控制系統(tǒng)無論是裝在車上還是裝在人形機器人駕駛員的大腦內(nèi),想要行使功能,都需要擁有具身智能,這一智能是由人使用世界模型(World Model)來教會的。世界模型是人工智能算法模型的一種新概念,旨在模仿人類和動物,通過觀察與交互來學(xué)習(xí)關(guān)于世界運作方式的知識。
簡單總結(jié)一下,無人駕駛的具身智能主要體現(xiàn)在感受和執(zhí)行世界模型這兩方面。一方面,感受由傳感和感知構(gòu)成,傳感獲得的是傳感器的原始數(shù)據(jù)(如圖片),而感知是對從攝像頭、雷達(dá)傳來的信息進行認(rèn)知處理(如圖片內(nèi)容是人還是動物、是否在運動)。另一方面,各類傳感器經(jīng)由算法處理后得到的障礙物、車道等信息往往存在矛盾,比如,雷達(dá)看到前方有一個障礙物而攝像頭認(rèn)為沒有,這時就需要增加融合模塊來綜合分析,對矛盾的信息作進一步的融合與預(yù)測,也就是采用世界模型來處理。世界模型的核心職責(zé)就是通過融合來理解當(dāng)下環(huán)境要素的屬性和關(guān)系,并配合先驗的規(guī)律做出預(yù)測和判斷,然后發(fā)出指令,這個時間跨度可以從幾毫秒到幾小時。
現(xiàn)在,無人駕駛的具身智能已經(jīng)初步成熟。就中國而言,無人駕駛技術(shù)水平已進入世界第一梯隊,且擁有約43%的全球自動駕駛發(fā)明專利。但從世界上這一領(lǐng)域的總體發(fā)展情況來看,無人駕駛汽車的具身智能還需要極大提升。
2024年6月,《自然-通訊》發(fā)表的一篇論文對真實世界中無人駕駛汽車的安全性進行了全面分析。對2016年至2022年間2100個配備有高級自動駕駛系統(tǒng)和高級輔助駕駛系統(tǒng)的車輛,以及35133輛人類駕駛車輛的事故數(shù)據(jù)(主要來自美國加州)進行了對比,結(jié)果顯示,在大多數(shù)場景下無人駕駛汽車導(dǎo)致的事故比人類駕駛汽車更少。但是,在特定情境下無人駕駛汽車似乎更易發(fā)生事故,如晨昏弱光環(huán)境下和轉(zhuǎn)彎時,事故率分別是人類駕駛的5.25倍和1.98倍。
手術(shù)機器人“巧手”突破人類極限
前段時間人們津津樂道的AI+醫(yī)生只是人工智能應(yīng)用于醫(yī)療的初級階段,它是一種診斷軟件,可以幫助醫(yī)生會診和提出治療方案。到了中高級階段,擁有具身智能的人形機器人可以做到問診患者甚至實施手術(shù),其手部的靈巧性、精確性將更勝一籌。
早已進入一些國家臨床醫(yī)療的達(dá)芬奇手術(shù)機器人具有“少量”的具身智能,畢竟它還需要外科醫(yī)生來操作。
達(dá)芬奇手術(shù)機器人是一個系統(tǒng),由3個部分組成:主刀醫(yī)師操作控制臺;三維成像視頻影像平臺;機械臂、攝像臂和手術(shù)器械組成的移動平臺。實施手術(shù)時,主刀醫(yī)生不與患者直接接觸,通過三維視覺系統(tǒng)和動作定標(biāo)系統(tǒng)操作控制,由機械臂及手術(shù)器械來完成醫(yī)生的技術(shù)動作和手術(shù)操作。其中,三維成像視頻影像平臺就像人的眼睛,機械臂、攝像臂和手術(shù)器械組成的移動平臺類似人的上下肢,不過操控的大腦還是人類醫(yī)生。
即便如此,手術(shù)機器人的感知系統(tǒng)和上肢、手部動作也比人更有優(yōu)勢。3D高清影像技術(shù)可以為主刀醫(yī)生提供高清晰和全方位立體式手術(shù)視野,對手術(shù)的局部位置視野放大15倍,不僅能精確定位手術(shù)部位,還能讓醫(yī)生看得更清楚。醫(yī)生操控的機器人手指可以突破人手不可能完成的極限,實現(xiàn)360°旋轉(zhuǎn),在有限的空間內(nèi)多個維度任意變換操作姿勢。機器人手指可以使用手術(shù)刀、剪刀、鑷子或縫線所需的持針器,快速完成切割、電燒、縫合、打結(jié)等動作,其精確度和靈巧度比人的雙手有過之而無不及。手術(shù)機器人還擁有“三頭六臂”(有多個微創(chuàng)手術(shù)刀和可旋轉(zhuǎn)支架,能使微創(chuàng)手術(shù)刀旋轉(zhuǎn)到患者的任何部位),這使得它能夠完成一個手術(shù)團隊的全部工作,減少了配合失誤,更容易實現(xiàn)主刀醫(yī)生的意圖。
2000年,美國食品與藥物管理局(FDA)批準(zhǔn)使用由美國直覺外科公司設(shè)計和制造的達(dá)芬奇手術(shù)機器人。第四代達(dá)芬奇手術(shù)機器人(達(dá)芬奇Xi系統(tǒng))于2015年上市。2023年,中國復(fù)星醫(yī)藥研制的首臺國產(chǎn)達(dá)芬奇Xi手術(shù)機器人獲得國家藥監(jiān)局批準(zhǔn)。
中國的達(dá)芬奇Xi手術(shù)機器人具有三維高清視野、可轉(zhuǎn)腕手術(shù)器械和直覺式動作控制三大特性,可以將外科醫(yī)生手部動作的顫抖自動濾除并轉(zhuǎn)換成更精準(zhǔn)的動作,其彎曲及旋轉(zhuǎn)程度遠(yuǎn)超人手極限,讓機器人輔助手術(shù)變成了現(xiàn)實。目前,達(dá)芬奇手術(shù)機器人已經(jīng)廣泛應(yīng)用于成人和兒童的普通外科、胸外科、泌尿外科、婦產(chǎn)科、頭頸外科,以及心臟手術(shù)。
總體來看,達(dá)芬奇手術(shù)機器人的具身智能還是相當(dāng)有限的,但不能否認(rèn)它為外科手術(shù)帶來了巨大改變,全球現(xiàn)有超1200萬名患者接受過達(dá)芬奇手術(shù)機器人的服務(wù)。未來,科學(xué)家將致力于研發(fā)擁有具身智能的人形手術(shù)機器人,能大部分或全部取代人類外科醫(yī)生,親自實施手術(shù)。當(dāng)然,一個重要前提是,由人類外科醫(yī)生監(jiān)管整個手術(shù)過程,如發(fā)現(xiàn)異常,立即停止機器人的操作,并接管手術(shù)。
“助老”先要模擬人的真實感覺
擁有具身智能的機器人現(xiàn)在和未來有個最廣泛的需求,就是照料老人。
今年2月,國際電工委員會(IEC)發(fā)布了由中國牽頭制定的養(yǎng)老機器人國際標(biāo)準(zhǔn)《互聯(lián)家庭環(huán)境下使用的主動輔助生活機器人性能準(zhǔn)則》,該標(biāo)準(zhǔn)依據(jù)老年人生理和行為特點,為各類養(yǎng)老機器人的產(chǎn)品設(shè)計、制造、測試和認(rèn)證等提供基準(zhǔn)?,F(xiàn)在已有一些科技產(chǎn)品進入市場,比如,江蘇無錫研發(fā)的“大頭阿亮”智能養(yǎng)老機器人,能按時提醒老人吃藥、吃飯、休息,還可播放新聞、協(xié)助網(wǎng)購;北京為700多戶老人配備的養(yǎng)老機器人,可呼叫家政服務(wù)、緊急呼救等。
養(yǎng)老機器人普遍整合了掃地機、洗碗機、手機、輪椅的功能,能提供日常清潔、餐飲服務(wù),還能陪伴交流,但只是有一定程度的具身智能。姑且不要求養(yǎng)老機器人會獨立做飯,即便是低要求的具身智能,如像人一樣能為失能老人端飯倒茶、攙扶老人行走等,都還不能實現(xiàn)。
理想中的具身智能要求機器人的手能伸、握、捏,抓取東西、旋轉(zhuǎn)開瓶蓋,有溫覺、痛覺、觸覺(如發(fā)現(xiàn)水溫不舒適,不能遞給老人飲用)等。目前,研究人員正在努力讓機器人的手具有人的真實感覺。最近,美國約翰斯·霍普金斯大學(xué)研發(fā)的仿生手達(dá)到具身智能的新高度,仿生手的觸覺反饋讓它可以“感知”物體,能穩(wěn)穩(wěn)抓住水瓶,也能輕輕捏起裝滿水的塑料杯卻不會弄壞它。
這種仿生手通過3個要件來體現(xiàn)具身智能:一是傳感器探知環(huán)境;二是控制系統(tǒng)將數(shù)據(jù)轉(zhuǎn)為神經(jīng)信號;三是刺激神經(jīng)傳遞觸覺。仿生手在觸摸物體時產(chǎn)生觸覺,這些觸覺通過電流傳導(dǎo)到人工大腦(控制器),然后,機器學(xué)習(xí)算法會處理觸覺信號并轉(zhuǎn)化為逼真的觸感,再通過電刺激傳遞給神經(jīng),讓仿生手“感覺”到手里的東西,從而做出種種適合于人、物體和場景的動作??上攵绻@樣的仿生手、仿生腳安裝在人形機器人身上,那它就會擁有像人一樣的觸覺、感覺、知覺,成為更好的具身智能。
總之,作為人工智能與機器人學(xué)交叉的前沿領(lǐng)域,具身智能蘊含著巨大的市場潛力和發(fā)展機遇。而如何制定具身智能技術(shù)倫理和道德準(zhǔn)則來確保其良性發(fā)展,也是個同樣迫切的問題。只有技術(shù)突破和管理相結(jié)合,以及價格親民,具身智能才會真正來到人們身邊。

已有0人發(fā)表了評論