|
隨著AI技術(shù)的進(jìn)展,ChatGPT等基于大語言模型的聊天機(jī)器人已成為我們解決問題的首選。但當(dāng)我們提出非常私人化、具象化及場(chǎng)景化的問題時(shí),它們給出的答案往往不盡人意。 比如,當(dāng)詢問“我想要學(xué)游泳,你能給我一些建議嗎?”時(shí),ChatGPT只能提供一些通用的建議,如“呼吸技巧”或“如何讓身體浮起來”。這些回答沒有針對(duì)用戶的具體情況,只是泛泛而談。但假如有一個(gè)教練朋友親自陪你到泳池,向你演示如何在水下屏氣,并托住你的腰讓你平躺在水面上,告訴你應(yīng)該如何控制身體以實(shí)現(xiàn)浮起,這是否才是你更想要的答案? 這正是“具身智能體”(Embodied Agent)的價(jià)值所在,它強(qiáng)調(diào)我們不僅要讓計(jì)算機(jī)程序變得聰明,還要讓它們像人類一樣與真實(shí)的物理世界進(jìn)行緊密的互動(dòng)。如此,我們才能實(shí)現(xiàn)具備人類智能水平,且更接近人類的通用人工智能(AGI)。 ![]() AI為什么要有具身智能? 為何我們要追求那種與物理世界緊密互動(dòng)、且更接近人類的人工智能?將人工智能當(dāng)作好用、便捷的工具難道還不夠嗎? 這一追求源于人類對(duì)智能的根本期待:我們希望它們不僅能高效地執(zhí)行如學(xué)習(xí)、問題解決和模式識(shí)別等復(fù)雜任務(wù),從而幫助人類去做不愿意,或是不擅長(zhǎng)做的事;我們還希望它們能理解人類的思維方式、行為習(xí)慣、情感表達(dá),甚至性格偏好和心理特點(diǎn),真正實(shí)現(xiàn)“懂你”的高階能力。更何況,從人性的角度來說,人類本能地會(huì)對(duì)更自然、更親近于自己的事物有好感,而對(duì)純粹機(jī)械化、缺乏情感的冰冷工具懷有拒斥之心。 1950年,圖靈在其論文中首次提出了人工智能的基本概念,并提出了著名的“圖靈測(cè)試”,用以判斷機(jī)器是否能模擬人類智能。同年,阿西莫夫在他發(fā)表的短篇集《我,機(jī)器人》中描繪了一個(gè)人與AI共處的未來世界,并提出了機(jī)器人三大定律。因此,自人工智能概念誕生之初,人類就相信并呼喚著一種能以人類語言交流并理解我們的AI——它不僅能在生活中陪伴我們,還受到倫理道德的約束,最終被人類的情感和性格所引導(dǎo)。 這樣看來,當(dāng)我們討論“智能”時(shí),實(shí)際上是期望AI超越單純的計(jì)算機(jī)器,成為一種與人類智能匹敵、擁有創(chuàng)造性思維和感知能力的高級(jí)生命體。具身智能則代表了這一愿景的實(shí)現(xiàn)路徑。 ![]() 具身智能何以像人? 這么說來,具身智能應(yīng)如何實(shí)現(xiàn)更像人的AI呢? 我們首先需要理解傳統(tǒng)人工智能的局限性。目前的AI系統(tǒng)主要依賴于收集的互聯(lián)網(wǎng)圖像、視頻或文本數(shù)據(jù)進(jìn)行學(xué)習(xí)。這些數(shù)據(jù)集雖然制作精良,但它們終究是靜態(tài)的,是通過人類整理和數(shù)據(jù)標(biāo)注的方式實(shí)現(xiàn)的。這使得AI在處理信息時(shí)缺乏與環(huán)境的交流及互動(dòng)。AI并不能理解其表達(dá)背后真正的邏輯思考路徑,更不用說自主反思并自我成長(zhǎng)了。因而除依葫蘆畫瓢外,AI自發(fā)制造的數(shù)據(jù)往往與實(shí)際情況不符,常?!昂f八道”。這也是傳統(tǒng)AI被稱為“弱”智能的主要原因。 為此,一些學(xué)者立足于人類嬰兒認(rèn)知的研究,從人類智能的發(fā)展過程中得到啟示,他們認(rèn)為,真正的智能來源于與周圍環(huán)境的不斷互動(dòng)和反饋。正如人類嬰兒通過與環(huán)境的感知和物理交互,來發(fā)展認(rèn)知能力一樣,智能的真正發(fā)展需要超越處理抽象信息,深入理解和應(yīng)對(duì)現(xiàn)實(shí)世界中的復(fù)雜情境。而這正是具身智能概念的出發(fā)點(diǎn)。 具體來說,具身智能是一種基于物理身體進(jìn)行感知和行動(dòng)的智能系統(tǒng),其通過智能體與環(huán)境的交互獲取信息、理解問題、做出決策并實(shí)現(xiàn)行動(dòng),從而產(chǎn)生智能行為和適應(yīng)性。斯坦福大學(xué)的李飛飛教授曾經(jīng)指出,“具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能?!蓖瑯?,上海交通大學(xué)的盧策吾教授通過貓學(xué)習(xí)走路的比喻,形象地描述到,“自由行動(dòng)的貓是具身的智能,它能夠在環(huán)境中自主行動(dòng),從而學(xué)會(huì)行走的能力;而被動(dòng)觀察世界的貓,最終卻失去了行走的能力?!?/p> 與基于靜態(tài)數(shù)據(jù)集訓(xùn)練的傳統(tǒng)AI不同,具身智能能實(shí)時(shí)地在真實(shí)物理世界中學(xué)習(xí)和交互,從而能更好地模擬人類學(xué)習(xí)的方式。它們能像人一樣,通過與環(huán)境的實(shí)際互動(dòng)獲取知識(shí)和經(jīng)驗(yàn),理解人類的實(shí)時(shí)反饋和行為,進(jìn)而掌握非語言的溝通方式,如通過表情和觸摸來感知和體驗(yàn)人類的情感表達(dá)。這種深度的人機(jī)交互和理解,使具身智能成為一種更貼近人類認(rèn)知和情感的智能形態(tài),有望實(shí)現(xiàn)更深層次的人機(jī)互動(dòng)和共融。 ![]() 具身智能如何做到更像人? 主動(dòng)性 作為具身智能的核心特征之一,主動(dòng)性賦予了智能系統(tǒng)超越被動(dòng)信息處理工具的能力,讓它們成為積極的參與者。 在Metin Sitti 2021年的論文Physical intelligence as a new paradigm中,他指出,在具身的物理智能層面上,柔性系統(tǒng)可以對(duì)環(huán)境刺激做出響應(yīng)……然后根據(jù)身體部位與環(huán)境條件的自我定位、自我運(yùn)動(dòng)和自我感知(本體感覺)得出自我定位,并將其轉(zhuǎn)化為后續(xù)行動(dòng)。這意味著具身智能不僅能感知環(huán)境,還能根據(jù)感知進(jìn)行自主的行動(dòng)。另一篇論文Embodied Intelligence in Physical, Social and Technological Environments同樣采用相似的方法定義具身智能:當(dāng)一個(gè)生命在各種感官信息的基礎(chǔ)上,自主地對(duì)環(huán)境采取行動(dòng),在這樣做的過程中,能夠?qū)⒆约鹤鳛橐粋€(gè)多感官的積極主動(dòng)的自我,從而與環(huán)境中正在發(fā)生的事情區(qū)分開來,并加以調(diào)節(jié)時(shí),它就擁有了具身智能。 這種主動(dòng)性可以通過一個(gè)簡(jiǎn)單的比喻來理解:當(dāng)你走進(jìn)圖書館,遇到一個(gè)傳統(tǒng)的管理員時(shí),他或許會(huì)根據(jù)你的請(qǐng)求給到你想要的答案,如一個(gè)書名及對(duì)應(yīng)位置。但如果這位管理員是一個(gè)具備具身智能的導(dǎo)覽顧問,它不僅能夠找到你需要的信息,還會(huì)主動(dòng)引導(dǎo)你,找到書籍,并給你講解相關(guān)知識(shí),帶你深入了解整個(gè)知識(shí)的世界。 這種交互方式類似于與一個(gè)熱情、友好的伙伴一起探索知識(shí),而不僅僅是從一個(gè)冷漠的知識(shí)助手那里得到答案。具身智能通過主動(dòng)性,提供了一種全新的交互體驗(yàn),這不僅能夠增強(qiáng)人類對(duì)信息的獲取和理解,還能加深人類與智能系統(tǒng)之間的情感和認(rèn)知聯(lián)系。 ![]() ?作者:Kim Salt 盡管目前的具身智能還未完全實(shí)現(xiàn)主動(dòng)性和熱情互動(dòng),但以視覺導(dǎo)航的快速發(fā)展為例,在如iGibson Sim2Real、Habitat和RoboTHOR等挑戰(zhàn)賽中,我們已經(jīng)見證了這一領(lǐng)域初步形態(tài)的涌現(xiàn),這些成果已經(jīng)超越了僅僅執(zhí)行任務(wù)的冷漠機(jī)器。例如,結(jié)合人類先驗(yàn)知識(shí)的導(dǎo)航系統(tǒng)能夠通過將這些知識(shí)以多模態(tài)輸入形式融入到深度強(qiáng)化學(xué)習(xí)框架中,如知識(shí)圖譜或音頻輸入,進(jìn)而使AI能夠在未知環(huán)境中學(xué)習(xí)導(dǎo)航并尋找未見過的物體。 最新的視覺語言導(dǎo)航(VLN)技術(shù)致力于創(chuàng)建一種能夠通過自然語言與人類交流,并在真實(shí)3D環(huán)境中自主導(dǎo)航的具身智能。目前,該領(lǐng)域已經(jīng)利用多個(gè)數(shù)據(jù)集進(jìn)行研究和開發(fā),如REVERIE、R2R、CVDN、GELA、ALFRED、Talk2Nav、Touchdown等,同時(shí)也產(chǎn)生了一些創(chuàng)新的網(wǎng)絡(luò)架構(gòu),如輔助推理導(dǎo)航框架。這些技術(shù)應(yīng)用于機(jī)器導(dǎo)航、輔助技術(shù)和虛擬助手等領(lǐng)域,尚處于初級(jí)階段。 此外,VLN的拓展視覺對(duì)話導(dǎo)航,旨在訓(xùn)練AI與人類進(jìn)行持續(xù)的自然語言對(duì)話,以輔助導(dǎo)航。在這個(gè)領(lǐng)域,研究者們使用了一種跨模態(tài)記憶網(wǎng)絡(luò)(CMN),該網(wǎng)絡(luò)分別擁有語言和視覺記憶模塊,用于記憶和理解與過往導(dǎo)航動(dòng)作相關(guān)的信息,并利用這些信息來作出導(dǎo)航?jīng)Q策。 實(shí)時(shí)性 實(shí)時(shí)性是具身智能另一個(gè)核心特性,它使得智能系統(tǒng)能夠在真實(shí)世界中及時(shí)學(xué)習(xí)并迅速反饋。具備實(shí)時(shí)性的具身智能能夠在接收到新信息或遇到新環(huán)境時(shí)立即做出響應(yīng)。與此相比,傳統(tǒng)的人工智能依賴于預(yù)訓(xùn)練的數(shù)據(jù),在面對(duì)實(shí)時(shí)變化的環(huán)境時(shí)難以快速反應(yīng)。 以電視節(jié)目為例,觀看錄播的魔術(shù)表演就像是與傳統(tǒng)AI的互動(dòng):雖然內(nèi)容精彩,但你只能被動(dòng)地觀看預(yù)先錄制的內(nèi)容,不能實(shí)時(shí)中斷或更改節(jié)目?jī)?nèi)容。相比之下,觀看現(xiàn)場(chǎng)直播的魔術(shù)秀則更類似于與具身智能的交互:你可以實(shí)時(shí)提出需求,魔術(shù)師則根據(jù)這些需求在現(xiàn)場(chǎng)即興表演,就好像在為你個(gè)人定制節(jié)目一樣,你不再是一個(gè)被動(dòng)的觀眾,而是整個(gè)魔術(shù)秀的一部分。這種互動(dòng)方式不僅更加個(gè)性化,也更具參與感。 故而,和現(xiàn)場(chǎng)表演的魔術(shù)師一樣,具身智能能夠即時(shí)響應(yīng)人類的需求和環(huán)境變化,提供更為貼合實(shí)際情況的解決方案,并以更貼近于人際交往的方式與人類互動(dòng)。這種實(shí)時(shí)性幫助它更好地融入人類的日常生活,成為一個(gè)更加智能和有用的伴侶,而不僅僅是一個(gè)執(zhí)行預(yù)設(shè)任務(wù)的機(jī)器。 在論文LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models中,研究團(tuán)隊(duì)提出了LLM-Planner方法。這種方法利用大型語言模型的能力,能為具身智能進(jìn)行少樣本規(guī)劃,并通過物理基礎(chǔ)來增強(qiáng)語言模型,從而生成和更新與當(dāng)前環(huán)境相關(guān)的計(jì)劃。其優(yōu)勢(shì)在于它能夠?qū)崟r(shí)反映和適應(yīng)環(huán)境的變化,為具身智能的決策提供即時(shí)的信息和指導(dǎo)。 情境性 除主動(dòng)與實(shí)時(shí)之外,具身智能對(duì)特定的場(chǎng)景和情境的反饋應(yīng)該有深入的感知和個(gè)性化的理解。 就像人類在與周圍環(huán)境互動(dòng)中實(shí)時(shí)調(diào)整自己的行為一樣,具身智能應(yīng)該通過實(shí)時(shí)學(xué)習(xí)和反饋,深刻地理解所處的情境,并據(jù)此調(diào)整其行為。它能夠根據(jù)上下文和環(huán)境的變化靈活地調(diào)整回應(yīng)方式,融入當(dāng)前的情境中,從而實(shí)現(xiàn)更自然和有效的交流。例如,具身智能能夠感知用戶的情緒變化,并據(jù)此提供個(gè)性化的體驗(yàn),增強(qiáng)用戶的參與感和滿意度。 以旅游規(guī)劃為例,傳統(tǒng)的聊天智能可能僅能提供固定的行程建議,而不管雨雪風(fēng)霜,甚至有可能在雷暴雨的天氣,依然為用戶安排露天溫泉的行程。具身智能則能夠根據(jù)用戶的個(gè)人偏好、當(dāng)?shù)丨h(huán)境和天氣狀況等因素提供更加貼合實(shí)際的建議。它更像一位熟悉當(dāng)?shù)厍闆r的私人旅行顧問乃至私人攝影師。它不僅知道你的目的地,還熟知周圍的情境,了解環(huán)境變化;能夠根據(jù)你的私人偏好和當(dāng)?shù)貢r(shí)令,帶你去合適的小館子就餐,并記錄下你每個(gè)快樂時(shí)刻的印記。 目前已經(jīng)存在大量逼真且公開泛用的3D場(chǎng)景,可以作為具身智能訓(xùn)練的模擬環(huán)境。針對(duì)具身導(dǎo)航的虛擬環(huán)境有iGibson、Habitat、MultiON、BEHAVIOR等;針對(duì)具身問答的有ALFRED;關(guān)注情景理解、物體狀態(tài)和任務(wù)規(guī)劃的環(huán)境有AI2-THOR、ThreeDWorld、Habitat 2.0等;關(guān)注物體操縱的有SAPIEN、RLBench、VLMbench、RFUniverse、ARNOLD等;物體抓取及操縱信息數(shù)據(jù)集包括GraspNet、SuctionNet、DexGraspNet、GAPartNet等。這些場(chǎng)景比以往研究模擬器所用的環(huán)境要真實(shí)得多,極大地促進(jìn)了具身智能在情境性的初步開發(fā)。 此外,傳感領(lǐng)域的技術(shù)進(jìn)步,也為情境性的具身智能發(fā)展提供了可靠保障。例如,PaLM-E團(tuán)隊(duì)提出了具體化的語言模型,將真實(shí)世界的連續(xù)傳感器模態(tài)直接結(jié)合到語言模型中,從而建立單詞和感知之間的聯(lián)系。這種模型的輸入是多模態(tài)語句,它們將視覺、連續(xù)狀態(tài)估計(jì)和文本輸入編碼交織在了一起。結(jié)合預(yù)訓(xùn)練的大型語言模型,對(duì)這些編碼進(jìn)行端到端訓(xùn)練,可用于多個(gè)具體任務(wù),如順序機(jī)器人操作規(guī)劃、視覺問題解答和圖像視頻字幕描述,有效地構(gòu)建了單詞和感知之間的聯(lián)系。 擬生物 較之一般的人工智能,具身智能需要應(yīng)對(duì)復(fù)雜的環(huán)境,并被要求以更接近人類的認(rèn)知方式來與現(xiàn)實(shí)世界共處,這就使得它體現(xiàn)出了更多的模仿生物的特征。 就像蜜蜂群體協(xié)同工作以建造蜂巢,具身智能中的多個(gè)智能體能夠共同協(xié)作,產(chǎn)生超越單個(gè)智能體能力的集體效應(yīng)。這種群體協(xié)作不僅超越了單個(gè)智能體的能力,還展示了復(fù)雜系統(tǒng)中的涌現(xiàn)現(xiàn)象。在這些系統(tǒng)中,個(gè)體智能體的簡(jiǎn)單行為和互動(dòng),可能導(dǎo)致整個(gè)系統(tǒng)出現(xiàn)復(fù)雜的行為模式和結(jié)構(gòu)形態(tài),使得系統(tǒng)能夠適應(yīng)新的環(huán)境和任務(wù),而無需依賴預(yù)先設(shè)定的編程規(guī)則。 此外,具身智能系統(tǒng)中的自組織性是其擬生物特性的關(guān)鍵部分。智能體能夠根據(jù)環(huán)境變化和相互作用動(dòng)態(tài)地調(diào)整自己的行為和結(jié)構(gòu),形成更高級(jí)別的功能和結(jié)構(gòu),從而使系統(tǒng)具有更強(qiáng)的魯棒性和適應(yīng)性。 具身智能的這些特性在多種應(yīng)用中得到了體現(xiàn)。有研發(fā)團(tuán)隊(duì)專門設(shè)計(jì)了一種水下軟體機(jī)器人,其靈感來源于細(xì)菌的形態(tài)。這種生物啟發(fā)的模塊化結(jié)構(gòu)使機(jī)器人能夠在水下環(huán)境中執(zhí)行多種任務(wù)。這種機(jī)器人利用其周圍的環(huán)境(水)、目標(biāo)的形狀以及機(jī)器人本身的順應(yīng)性,通過少量的控制輸入來實(shí)現(xiàn)有效的導(dǎo)航和安全交互。這種建模方法和設(shè)計(jì)不僅展示了具身智能在模仿生物體方面的創(chuàng)新,也體現(xiàn)了它在實(shí)際應(yīng)用中的多功能性和適應(yīng)性。
?作者:Alexey Kashpersky&Newt Studios 總之,具身智能領(lǐng)域的技術(shù)發(fā)展呈現(xiàn)出多樣化和綜合化的趨勢(shì),特別是在觀察、操縱和導(dǎo)航等方面的進(jìn)步尤為顯著。這些技術(shù)的發(fā)展不單單針對(duì)具身智能的某個(gè)特定特性,而是綜合了多方面的功能和能力,以實(shí)現(xiàn)更高的適應(yīng)性和靈活性。 通過結(jié)合機(jī)器人的傳感器數(shù)據(jù)和一般的視覺語言數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,特別是利用大語言模型的強(qiáng)大內(nèi)在知識(shí),可以幫助具身智能在面對(duì)復(fù)雜和未知的真實(shí)世界環(huán)境時(shí),進(jìn)行有效的動(dòng)態(tài)學(xué)習(xí)和泛化。例如,LLM-based Agent(基于大語言模型的智能體)以其獨(dú)特的語言能力為優(yōu)勢(shì),不僅作為與環(huán)境交互的工具,還能將基礎(chǔ)技能轉(zhuǎn)移到新任務(wù)上,從而使機(jī)器人能夠根據(jù)人類的語言指令適應(yīng)不同的操作環(huán)境。 此外,通過嵌入式行動(dòng)規(guī)劃,利用高層策略指導(dǎo)低層策略的子目標(biāo),從而使低層策略生成適當(dāng)?shù)男袆?dòng)信號(hào),可以使機(jī)器人在執(zhí)行任務(wù)時(shí)更加高效和可控。這種策略的應(yīng)用可以使具身智能在處理復(fù)雜任務(wù)時(shí)更接近人類的決策模式。為了更有效地完成導(dǎo)航和其他復(fù)雜任務(wù),具身智能還需要內(nèi)存緩沖區(qū)和總結(jié)機(jī)制,以便參考?xì)v史信息并更好地適應(yīng)未知環(huán)境。 近年來,谷歌公司的Everyday Robot項(xiàng)目SayCan系統(tǒng),已經(jīng)將機(jī)器人和對(duì)話模型結(jié)合,完成一個(gè)包含16個(gè)步驟的長(zhǎng)任務(wù);伯克利的LM Nav項(xiàng)目,則用三個(gè)大模型(視覺導(dǎo)航模型ViNG、大語言模型GPT-3、視覺語言模型CLIP)教會(huì)了機(jī)器人在不看地圖的情況下按照語言指令到達(dá)目的地;上文提到的谷歌與柏林工業(yè)大學(xué)推出的PaLM-E模型更是在具身智能的多模態(tài)理解和執(zhí)行方面取得了顯著的進(jìn)展。 能夠發(fā)現(xiàn),具身智能的技術(shù)發(fā)展正邁向一個(gè)更加綜合、靈活且高效的方向。這些技術(shù)的融合和發(fā)展,不僅提高了智能系統(tǒng)的適應(yīng)性和實(shí)用性,也為未來的智能系統(tǒng)設(shè)計(jì)和應(yīng)用開辟了新的路徑。隨著技術(shù)的不斷進(jìn)步,我們可以期待具身智能在更多領(lǐng)域的實(shí)際應(yīng)用和創(chuàng)新突破。 ![]() 人工智能與人類智能的關(guān)系 為了深入理解人工智能(AI)和人類智能(Human intelligence,HI)之間的差異,并探索如何縮小這一差距,結(jié)合對(duì)具身智能特性的考量,Shanda AI Lab LEAF團(tuán)隊(duì)提出了五性原則,以對(duì)照分析AI的發(fā)展方向(在后續(xù)的“智能漸近線”系列報(bào)告中,我們會(huì)不斷擴(kuò)充五性的內(nèi)容)。這些原則不僅與具身智能的四大特性相互呼應(yīng),還深入探討了AI發(fā)展的關(guān)鍵方面,以期望使AI更接近于人類智能的復(fù)雜性和適應(yīng)性。 1)邏輯性 AI應(yīng)具備類似于人類大腦的邏輯思考和理解能力。具體來說,就是AI能夠在復(fù)雜的社交場(chǎng)景中,結(jié)合已有的各種知識(shí)儲(chǔ)備進(jìn)行綜合運(yùn)算及推理,理解語義及語義背后的復(fù)雜內(nèi)涵,最終給出相應(yīng)的輸出。 2)感知力 AI需要具有強(qiáng)大的感知能力,能識(shí)別和關(guān)聯(lián)多種信號(hào),并能進(jìn)行類似于人類的想象和通感。它不僅能夠理解聊天輸入,同時(shí)也能處理多種類型的輸入信息;能夠像人一樣,快速地對(duì)周圍環(huán)境的變化和各種刺激做出迅速的反應(yīng)。 3)實(shí)時(shí)性 AI系統(tǒng)可以做到信息的實(shí)時(shí)更新、隨時(shí)取用、隨環(huán)境而反饋;它可以學(xué)習(xí)人類的記憶模塊的能力,通過上下文學(xué)習(xí)和情境學(xué)習(xí)等方式,從有限的實(shí)時(shí)信息中進(jìn)行類比學(xué)習(xí),理解新的任務(wù)。 4)主動(dòng)性 AI能夠靠積極主動(dòng)的、有目的性的行為,來完成類似于人類執(zhí)行功能的事物處理能力,包括設(shè)定目標(biāo)、規(guī)劃流程、分解任務(wù)、使用工具方法、管理時(shí)間和組織安排等方面;這也就意味著AI需要在真實(shí)環(huán)境中學(xué)習(xí)大量實(shí)際的經(jīng)驗(yàn),并對(duì)上下文和具體情境能夠有實(shí)時(shí)調(diào)整的能力,進(jìn)而可以依據(jù)實(shí)際的場(chǎng)景自主決策,靈活安排并主動(dòng)交互。 5)適應(yīng)性 AI具備主動(dòng)感知和理解世界的能力,以及能夠與環(huán)境進(jìn)行雙向的、動(dòng)態(tài)的交互;這種適應(yīng)性不僅限于機(jī)器對(duì)輸入的響應(yīng),還包括系統(tǒng)能夠根據(jù)內(nèi)部知識(shí)做出合適的決策,并通過特定的行為來改變周圍的環(huán)境;在社會(huì)學(xué)意義上,意味著人工智能能夠以近似人類的方式與世界進(jìn)行深度互動(dòng),并理解世界的復(fù)雜性。 顯而易見,要想讓人工智能更接近人類智慧,其先決條件是讓人工智能理解并學(xué)習(xí)人類認(rèn)知世界的方式,進(jìn)而以類似人類思考決策的方式去行動(dòng)。 ![]() ?作者:Victorien Aubineau 作為典型的強(qiáng)智能體,人類在成長(zhǎng)過程中較少的依賴當(dāng)前深度學(xué)習(xí)中采用的監(jiān)督學(xué)習(xí)范式。相反,人類關(guān)鍵性技能的發(fā)展,如行走、使用工具、學(xué)習(xí)新的技能,都依賴于身體力行的嘗試。同樣,具身智能通過與環(huán)境的互動(dòng),雖然面臨第一視角得到數(shù)據(jù)的不穩(wěn)定,但它能夠通過類似人類的中心感知方式來學(xué)習(xí),并真正地在實(shí)際環(huán)境中應(yīng)變和理解,從而從視覺、語言和推理過渡到人工具身(Artificial Embodiment)。 ![]() 具身智能的發(fā)展 近年來,“具身智能”逐漸成為熱門的研究方向,吸引了計(jì)算機(jī)視覺、自然語言處理和機(jī)器人等眾多領(lǐng)域的研究興趣。自2017年第一屆機(jī)器人學(xué)習(xí)大會(huì)CoRL(Conference on Robot Learning)召開以來,我們見證了機(jī)器人學(xué)習(xí)領(lǐng)域的快速發(fā)展,包括大量新的智能任務(wù)、算法、環(huán)境的涌現(xiàn)。在接下來的幾年里,特別是2018年和2019年的CoRL會(huì)議上,大量的具身智能學(xué)術(shù)任務(wù)開始被提出并受到關(guān)注,包括具身視覺導(dǎo)航、具身問答系統(tǒng)等。 到了2023年,CVPR 2023具身智能研討會(huì)更是組織了AI Habitat、AI2-THOR、iGibson、Sapien仿真器的物體重排列、具身問答、具身導(dǎo)航和機(jī)器人操作挑戰(zhàn)賽。這些具身智能任務(wù)與其他線上AI任務(wù)具有完全不同的范式,即利用具身智能體(如機(jī)器人)“看”、“說”、“聽”、“動(dòng)”、“推理”等方式,與環(huán)境進(jìn)行交互和探索任務(wù)目標(biāo),從而解決環(huán)境中的各項(xiàng)挑戰(zhàn)性任務(wù)。 總結(jié)來看,人工智能學(xué)習(xí)并理解人腦的認(rèn)知范式,進(jìn)而接近于人的智慧,將是大勢(shì)所趨;而具身智能,尤其是模擬人類的具身智能,是人工智能趨向于人類智能的可行的高效捷徑。 ![]() 1. “具身智能 | CCF專家談術(shù)語”,作者:盧策吾、王鶴;https://www./Media_list/gzwyh/jsjsysdwyh/2023-07-22/794317.shtml 2. “稚暉君獨(dú)家撰文:具身智能即將為通用機(jī)器人補(bǔ)全最后一塊拼圖”,作者:稚暉君、甲子光年;https://www.thepaper.cn/newsDetail_forward_24392857 3. “李飛飛團(tuán)隊(duì)發(fā)布“具身智能”成果:機(jī)器人接入大模型直接聽懂人話“,作者:福布斯中國(guó),https://new.qq.com/rain/a/20230711A03ZV000 4. “何為'具身智能’?”作者:吳易明、梁晶;https://mp.weixin.qq.com/s/5alsxh4Vw15j_YrGMGfelQ 5. “為什么說具身智能是通往AGI值得探索的方向?上海交大教授盧策吾深度解讀”,作者:盧策吾、機(jī)器之心;https://mp.weixin.qq.com/s/MM_VLWmrrxev1zWuLKZZUQ 6. “《綜述:全新大語言模型驅(qū)動(dòng)的Agent》——4.5萬字詳細(xì)解讀復(fù)旦NLP和米哈游最新Agent Survey”,作者:獸族機(jī)槍兵;https://zhuanlan.zhihu.com/p/656676717; 7. “The Rise and Potential of Large Language Model Based Agents: A Survey”,作者:Fudan NLP Group、miHoYo Inc;https:///pdf/2309.07864v1.pdf; 8. “【漁夫關(guān)注】AI下一站——具身智能 正在走向現(xiàn)實(shí)”,作者:愚漁娛魚;https://xueqiu.com/6253558369/250659786; 9. “具身智能綜述和應(yīng)用(Embodied AI)”,作者:上杉翔二;https://blog.csdn.net/qq_39388410/article/details/128264098; 10. “A Survey of Embodied AI: From Simulators to Research Tasks”,作者:Jiafei Duan, Samson Yu, Hui Li Tan, Hongyuan Zhu, Cheston Tan;https:///abs/2103.04918 11. “LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models”,作者:Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su;https:///abs/2212.04088 12. “QT-Opt: Scalable Deep Reinforcement Learning for Vision-Based Robotic Manipulation”,作者:Dmitry Kalashnikov, Alex Irpan, Peter Pastor, Julian Ibarz, Alexander Herzog, Eric Jang, Deirdre Quillen, Ethan Holly, Mrinal Kalakrishnan, Vincent Vanhoucke, Sergey Levine;https:///abs/1806.10293 13. “Review of Deep Reinforcement Learning for Robot Manipulation”,作者:Hai Nguyen; Hung La等;https://ieeexplore./document/8675643 14. “PaLM-E: An Embodied Multimodal Language Model”,作者:Danny Driess, Fei Xia, Mehdi S. M. Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, Wenlong Huang, Yevgen Chebotar, Pierre Sermanet, Daniel Duckworth, Sergey Levine, Vincent Vanhoucke, Karol Hausman, Marc Toussaint, Klaus Greff, Andy Zeng, Igor Mordatch, Pete Florence;https:///abs/2303.03378 15. “Embodied Artificial Intelligence: Trends and Challenges”,作者:Rolf Pfeifer, Fumiya Iida;https://www./paper/Embodied-Artificial-Intelligence%3A-Trends-and-Pfeifer-Iida/4e3e2bbc38bbe239423c755d7682e647e8989358 16. “Embodied intelligence via learning and evolution”,作者:Agrim Gupta, Silvio Savarese, Surya Ganguli & Li Fei-Fei;https://www./articles/s41467-021-25874-z 17. “Systems Challenges for Trustworthy Embodied Systems”,作者:Harald Rue?;https:///abs/2201.03413 18. “Embodied neuromorphic intelligence”,作者:Chiara Bartolozzi, Giacomo Indiveri & Elisa Donati;https://www./articles/s41467-022-28487-2 19. “From Machine Learning to Robotics: Challenges and Opportunities for Embodied Intelligence”,作者:Nicholas Roy, Ingmar Posner, Tim Barfoot, Philippe Beaudoin, Yoshua Bengio, Jeannette Bohg, Oliver Brock, Isabelle Depatie, Dieter Fox, Dan Koditschek, Tomas Lozano-Perez, Vikash Mansinghka, Christopher Pal, Blake Richards, Dorsa Sadigh, Stefan Schaal, Gaurav Sukhatme, Denis Therien, Marc Toussaint, Michiel Van de Panne;https:///abs/2110.15245 20. “Embodied Intelligence in Physical, Social and Technological Environments”,作者:Ilona Straub,https://iopscience./article/10.1088/1757-899X/1261/1/012024/meta 21. “Embodied Artificial Intelligence: Enabling the Next Intelligence Revolution”,作者:Josie Hughes1, Arsen Abdulali, Ryman Hashem and Fumiya Iida,https://iopscience./article/10.1088/1757-899X/1261/1/012001 22. “A concise guide to modelling the physics of embodied intelligence in soft robotics”,作者:Gianmarco Mengaldo, Federico Renda, Steven L Brunton, Moritz B?cher, Marcello Calisti, Christian Duriez, Gregory S Chirikjian, Cecilia Laschi;https://www./articles/s42254-022-00481-z 23. “Catalyzing next-generation Artificial Intelligence through NeuroAI”,作者:Anthony Zador, Sean Escola, Blake Richards, Bence ?lveczky, Yoshua Bengio, Kwabena Boahen等;https://www./articles/s41467-023-37180-x 24. “Embodied intelligence weaves a better future”,作者:Dongdong Jin & Li Zhang;https://www./articles/s42256-020-00250-6 25. “Embodied Intelligence: Driving the digital transformation 2.0”,作者:Volkmar Doericht,Markus Duchon, Cornel Klein & Ioana Olaru;https://www./publication/371418945_Embodied_Intelligence_Driving_the_digital_transformation_20 26. “Human-in-the-loop Embodied Intelligence with Interactive Simulation Environment for Surgical Robot Learning”,作者:Yonghao Long, Wang Wei, Tao Huang, Yuehao Wang, Qi Dou;https:///abs/2301.00452 27. “A Survey of Embodied AI: From Simulators to Research Tasks”,作者:Jiafei Duan, Samson Yu, Hui Li Tan, Hongyuan Zhu, Cheston Tan;https:///abs/2103.04918 28. “Swarm Intelligence and Cyber-Physical Systems: Concepts, Challenges and Future Trends”,作者:Melanie Schranz, Gianni A. Di Caro, Thomas Schmickl,Wilfried Elmenreich等;https://www./science/article/abs/pii/S2210650220304156 29. “Embodied Intelligence & Morphological Computation in Soft Robotics Community: Collaborations, Coordination, and Perspective”,作者:S.M. Hadi Sadati, Marwa ElDiwiny, Surya Nurzaman, Fumiya Iida and Thrishantha Nanayakkara,https://iopscience./article/10.1088/1757-899X/1261/1/012005 30. “Embodied AI beyond Embodied Cognition and Enactivism”,作者:Riccardo Manzotti,https://www./publication/334515423_Embodied_AI_beyond_Embodied_Cognition_and_Enactivism 31. “Artificial Pain May Induce Empathy, Morality, and Ethics in the Conscious Mind of Robots”,作者:Minoru Asada,https://www./paper/Artificial-Pain-May-Induce-Empathy%2C-Morality%2C-and-Asada/8d7af638f1ee26744c0a52e054692b9e5840eed5 32. “Interaction Histories and Short-Term Memory: Enactive Development of Turn-Taking Behaviours in a Childlike Humanoid Robot”,作者:Frank Broz,Chrystopher L. Nehaniv,Hatice Kose & Kerstin Dautenhahn;https:///abs/1202.5600 33. “Nonconscious Cognitive Suffering: Considering Suffering Risks of Embodied Artificial Intelligence”,作者:Steven Umbrello & Stefan Lorenz Sorgner;https://www.sciencegate.app/document/10.3390/philosophies4020024 34. “Rilkean Memories and the Self of a Robot”,作者:Antonio Chella;https://www./publication/332654686_Rilkean_Memories_and_the_Self_of_a_Robot 35. “Embodiment: The Ecology of Mind”,作者:Paul Dumouchel;https://www./2409-9287/4/2/12 36. “Enactivism and Robotic Language Acquisition: A Report from the Frontier”,作者:Frank F?rster,https://www./publication/331619829_Enactivism_and_Robotic_Language_Acquisition_A_Report_from_the_Frontier 37. “The Problem of Meaning in AI and Robotics: Still with Us after All These Years”,作者:Tom Froese & Shigeru Taguchi,https:///rec/FROTPO-14 38. “Embodied Intelligence in soft robotics: joys and sorrows”,作者:Cecilia Laschi;https://iopscience./article/10.1088/1757-899X/1261/1/012002/meta 39. “Embodied Intelligence in Plants”,作者:Barbara Mazzolai, Emanuela Del Dottore, Francesca Tramacere, Alessio Mondini and Laura Margheri;https://www./publication/364570349_Embodied_Intelligence_in_Plants 40. “From bioinspired to biological robots, and back again”,作者:Josh Bongard;https://iopscience./article/10.1088/1757-899X/1261/1/012004 41. “Bio-Inspired Robots Imitating Human Organs with Embodied Intelligence Behaviour”,作者:Ryman Hashem, Weiliang Xu and Fumiya Iida;https://iopscience./article/10.1088/1757-899X/1261/1/012007 42. “Leveraging Embodied Intelligence for Dexterous Robotic Manipulators Through Iterative Co-design”,作者:Kai Junge and Josie Hughes,https://iopscience./article/10.1088/1757-899X/1261/1/012009/meta 43. “Morphological Computation and Control Complexity”,作者:Thomas George Thuruthel, Fumiya Iida,https://iopscience./article/10.1088/1757-899X/1261/1/012011/pdf 44. “Mechanical Sensing in Embodied Agents”,作者:Matteo Lo Preti, Thomas George Thuruthel, Kieran Gilday,Lucia Beccai1, Fumiya Iida;https://iopscience./article/10.1088/1757-899X/1261/1/012013 45. “Robot swarms as embodied extensions of humans”,作者:Jonas D Rockbach, Maren Bennewitz;https://iopscience./article/10.1088/1757-899X/1261/1/012015/pdf 46. “Embodiment in Dialogue: Daily Dialogue Android Based on Multimodal Information”,作者:Takahisa Uchida, Takashi Minato and Hiroshi Ishiguro,https://iopscience./article/10.1088/1757-899X/1261/1/012016 47. “Benefits and Challenges of Morphological Adaptation in Real-world Robots”,作者:T?nnes F. Nygaard and Kyrre Glette;https://iopscience./article/10.1088/1757-899X/1261/1/012017 48. “Taking Shape: A Perspective on the Future of Embodied Cognition and a new Generation of Evolutionary Robotics”,作者:David Howard, Jack Collins and Nicole Robinson;https://iopscience./article/10.1088/1757-899X/1261/1/012018 49. “Meta-brain Models: biologically-inspired cognitive agents”,作者:B Alicea and J Parent;https://iopscience./article/10.1088/1757-899X/1261/1/012019 |
|
|