| 12.青蛙之眼 真實的歷史從來都比后世敘述更詭秘。 1946年,馮·諾伊曼對邏輯大腦模型提出尖銳批評,但似乎并未產(chǎn)生什么影響,皮茨1947年在控制論會議上還介紹自己正在撰寫概率三維神經(jīng)網(wǎng)絡的博士論文。維納在《控制論》序言中也提到,1947年麥卡洛克和皮茨“接受了一個設計一種幫助盲人用耳代目閱讀印刷品的裝置的任務……能夠把一個形象和另一個大小與它不同的標準形象做比較……引起了馮·博寧博士的注意,他立刻問道:‘這是不是一張大腦視覺皮質第四層的圖?’受到這個啟發(fā)后,麥卡洛克博士在皮茨先生的幫助下創(chuàng)造了一個把視覺皮質的解剖學和生理學聯(lián)系起來的學說”。這就是他們1947年發(fā)表的《論我們何以認識世界:對視聽形式的感知》。 當然,維納也沒把馮·諾伊曼的忠告忘在腦后。1951年,他說服麻省理工學院電子研究實驗室副主任杰里·威斯納,邀請神經(jīng)生理學家成立“實驗認識論(Experimental Epistemology)”研究組。梅西控制論會議常任主席麥卡洛克已經(jīng)年過半百,毅然辭去正教授職位而低就副教授,介紹三人認識的“媒人”萊特文也從最初級職位做起?!翱刂普摗苯鹑蔷凼茁槭±砉W院。就在歷史“準備再次偉大”時,1952年正在墨西哥學術休假的維納突然發(fā)電報給威斯納:“請告訴(皮茨和萊特文),我跟他們,以及你的項目從此一刀兩斷?!?/p> 維納發(fā)飆的原因,一種說法是皮茨和萊特文之前興沖沖地給他寫過信,說:“很多先進設備已到位,要做最好的研究。你快回來,回來晚了這個世界就都變了!”另一種廣為傳播的說法是,維納太太捏造說,女兒被“那位波希尼亞人(指麥卡洛克)”的“男孩們”玷污了。 維納斷交肯定對皮茨造成了很大打擊。對于15歲離家出走的皮茨來說,維納既是知音和導師,還像父親。而如今突然火冒三丈,不可理喻地絕交,而且閉口不談為什么,真的不合邏輯好嗎! 真正不合邏輯的更大打擊還在后頭。 少了維納,實驗認識論組并未消亡。1955~1965年,他們合作發(fā)表了5篇論文,其中最著名的是《青蛙的眼睛告訴了大腦什么?》這篇論文的第一作者是萊特文。萊特文本想成為一名詩人(他一生確實筆耕不輟),但他媽媽立場更堅定,“不學醫(yī),沒學費”,他只得選擇醫(yī)學院。加入實驗認識論組后,萊特文給自己的定位是,“為神經(jīng)生理學的問題以及更清晰地定義這些問題設計新方法”。 萊特文研究青蛙開始于1956年。1953年,英國神經(jīng)科學家荷瑞斯·巴洛(Horace Basil Barlow, 1921-)就發(fā)現(xiàn)青蛙視網(wǎng)膜有一種神經(jīng)節(jié)細胞對運動斑點敏感(被形象地稱為“小蟲檢測器”)。萊特文的這篇文章則發(fā)現(xiàn)4種新功能的神經(jīng)節(jié)細胞。正如后來巴洛總結的:“單個神經(jīng)元可以完成的任務比人們過去所想象的要復雜得多,也精確得多?!?/p> 皮茨參加了青蛙實驗,有照片為證,他本來期望實驗能為他的邏輯大腦模型提供實證。但是,萊特文回憶說:“我們完成青蛙眼睛的研究后,他很明顯地意識到,就算邏輯在這個過程中發(fā)揮了作用,也并非如我們所想的那樣承擔了重要或核心的工作,……這讓他失望透頂?!?/p> 從12歲讀完《數(shù)學原理》開始,邏輯就成為皮茨內(nèi)心抵抗外部復雜世界的強大力量,馮·諾伊曼的批評和維納的斷交都未能擊垮他??扇缃瘢壿嬀谷贿B青蛙的大腦都對付不了,這從根本上撼動了皮茨的世界觀。他把研究報告、筆記和論文付之一炬,不再跟任何人說話,還經(jīng)常失蹤。萊特文回憶說: “我們幾天幾夜地找他。”一代數(shù)理邏輯天才就此一蹶不振。 13.動物視覺 青蛙眼睛和大腦的會話未必符合數(shù)理邏輯,但符合生死時速的大邏輯。 研究青蛙視網(wǎng)膜的巴洛,他媽媽的爺爺達爾文在《物種起源》中曾寫道:“如果假定眼睛能由自然選擇而形成,我坦白承認,這種說法好像是極其荒謬的。”為此,達爾文花了大量篇幅論證進化出眼睛的可能性(全書60多處提到眼睛)。例如,“在關節(jié)動物這一大綱里,我們可以看到最原始的單純被色素層包圍著的視神經(jīng),這種色素層有時形成一個瞳孔,但沒有晶狀體或其他光學裝置?!比鸬渎〉麓髮W丹·克尼爾森教授把眼睛進化分為無向光感受器、有向光感受器、低分辨率視覺和高分辨率視覺4個階段,估計50萬年之內(nèi)就足以進化出眼睛。 最近已知,視感受器出現(xiàn)在6億年前,魚眼出現(xiàn)在5.5億年前,而昆蟲復眼出現(xiàn)在1.6億年前。人們往往想當然地認為,動物眼中的世界和自己看到的類似,實際上大相徑庭。立方水母全身神經(jīng)元也就1萬多個,卻有24只眼睛,4片膜上各有一只像不倒翁一樣永遠向上的眼睛,用以辨別身處開闊水面還是食物豐富的紅樹林。夜間活動的飛蛾用復眼感知光線方向,但不分距離,靠遙遠的月亮導航?jīng)]問題,遇上人造燈火就麻煩了:或者撲火而亡,或者圍繞燈光不停旋轉,除非偶然離去,否則就只能撞死或累死。貓在昏暗環(huán)境下捕食,感知亮度的視桿細胞比人眼多,但感知色彩的視錐細胞很少,因此貓看到的世界是灰色的。古巴巖鬣蜥的世界五彩繽紛,它有4種視錐細胞,而人類只有3種,極少數(shù)女士有4種。螳螂蝦進化出12種視錐細胞,能夠感知紅外和紫外光,而且還能靈活轉動,更加顧盼神飛。有種跳蛛的視感受器排成V字形,功能就是識別配偶背上的V字形狀。 接下來的問題就是:動物的神經(jīng)系統(tǒng)是如何實現(xiàn)這些視覺功能的?生物控制論創(chuàng)始人沃納·賴夏特(Werner E. Reichardt, 1924-1992)1950年對伯恩哈德·哈森施坦因(Bernhard Hassenstein, 1922-2016)的甲蟲視動反應實驗感興趣,兩人提出了昆蟲運動視覺感知模型,并于1958年在德國馬普學會生物所共同創(chuàng)立控制論研究組,1968年獨立為生物控制論研究所。賴夏特作為創(chuàng)始所長,繼續(xù)開展昆蟲視覺信息處理過程的研究。他選中的是腦復雜度適中的家蠅。1971年,剛拿到物理學博士學位的托馬索·波焦(Tomaso Armando Poggio, 1947- )加入這項研究,發(fā)現(xiàn)了家蠅視覺飛行控制系統(tǒng)的秘密,并給出了精確的定量描述:家蠅的視覺器官并不感知人類熟悉的三維世界,而是直接感知一對方向角,再通過5個相互獨立的固定快速反應(從視覺刺激到改變扭矩僅需2毫秒),實現(xiàn)起飛、著陸和追逐等動作。 1982~1984年,我國神經(jīng)生理學家郭愛克院士(1940- )在賴夏特研究組作為訪問學者參加家蠅視覺系統(tǒng)圖形與背景分辨研究。采用類似實驗手段,郭愛克和唐世明在2001年發(fā)現(xiàn)果蠅具有抉擇這種高級認知行為。2006年,郭愛克和郭增強發(fā)現(xiàn)果蠅視覺和嗅覺的學習記憶可以跨模態(tài)增強。2016年9月,果蠅全腦神經(jīng)網(wǎng)絡三維精細模型繪制完成,從神經(jīng)元網(wǎng)絡層次破解蠅視覺的秘密,曙光在前。 14.視覺計算 與蠅視覺相比,人類視覺要復雜得多。果蠅全部神經(jīng)元約25萬個,人類初級視皮層神經(jīng)元就有2.8億個,兩者差距上萬倍,更遑論結構復雜性。但是,視覺的難度在人工智能早期被嚴重低估。1967年,明斯基宣稱,“創(chuàng)建‘人工智能’只需要一代人”。他的同事佩帕特則表示,“計算機聯(lián)上攝像頭,‘描繪它看到什么’這個問題一個暑期項目就能搞定”。兩人在1969年出版《感知機》,挑起人工智能和神經(jīng)網(wǎng)絡之戰(zhàn)。麻省理工學院人工智能實驗室也在1970年正式成立。然而好景不長,1971年,神經(jīng)網(wǎng)絡旗手羅森布拉特猝然辭世,神經(jīng)網(wǎng)絡進入寒冬。唇亡齒寒,人工智能也未能堅持太久,1974年,英國和美國相繼斬斷對人工智能的資助。 人工智能寒冬將至未至的1973年,大衛(wèi)·馬爾(David Courtnay Marr, 1945-1980)加入麻省理工學院人工智能實驗室。明斯基和佩帕特延攬馬爾,是希望他收拾機器視覺這個牛皮吹破的“爛攤子”。馬爾曾引用一段話描述當時的狀況:“一些(計算機視覺)研究者都有一種共同的、幾乎是令人絕望的感受:在一幅圖像中任何事情都可能發(fā)生,而且事實上所有的事情也都在圖像中發(fā)生?!?/p> 馬爾1966年從劍橋大學獲得碩士學位,本科和碩士專業(yè)都是數(shù)學,后轉向神經(jīng)生理學,1972年獲得生理學博士學位。博士論文的內(nèi)容是基于解剖學和生理學數(shù)據(jù)的小腦功能建模。1973年10月,馬爾在給自己博士導師的信中說,決定把研究興趣轉到視覺,12月又寫信說,“再也不準備寫任何理論神經(jīng)生理學方面的論文了”。 馬爾說到做到,全身心投入視覺計算研究,1977年獲生理學系正式教職,1980年升任教授,當年因白血病辭世。馬爾的同事和學生把他尚未完成的《視覺》補充完善出版,成為計算機視覺的開山之作。 馬爾對視覺計算理論的重大貢獻是把神經(jīng)生理學和計算機科學深度結合。據(jù)波焦回憶,他1973年初次造訪波士頓就見到了馬爾,兩人當時談論的是馬爾感興趣的視網(wǎng)膜特征檢測器。1976年,波焦再次到麻省理工學院短期訪問。兩人討論認為,大腦和計算機都是信息處理系統(tǒng),而理解一個復雜的信息系統(tǒng),至少應該分成三個層次:計算理論(對功能和行為的理解)、表征和處理、物理實現(xiàn),這奠定了《視覺》一書的基本思想。這個思想對神經(jīng)生理學是一股新風,但在計算機學科卻是常識:底層物理實現(xiàn)就是計算機本身(主要是體系結構);中層的表征對應數(shù)據(jù)結構,處理對應算法;頂層是對要解決的問題進行理論分析建模。馬爾把重點放在中間層,因此把“人對視覺信息的表征和處理的計算研究”作為《視覺》一書的副標題 。 馬爾在著作中描述了自己的“思想轉變”過程:“我也曾相信,真理從根本上是屬于神經(jīng)的,研究的中心任務就是對神經(jīng)系統(tǒng)的結構做徹底的功能分析”,轉變?yōu)椤坝蒙窠?jīng)元(除作為實現(xiàn)一種計算方法的手段外)對視覺現(xiàn)象所做的任何解釋已經(jīng)不堪回首了。取代它們的是對一系列問題的明確認識:要計算的是什么東西?怎樣才能進行這種計算?計算使用的方法基于哪些物理假設?對可執(zhí)行這種計算的算法怎樣進行分析?” 馬爾的視覺計算理論影響至今,但基于這套理論開發(fā)的計算機視覺系統(tǒng),即使經(jīng)過多年改進,也還遠遠不能和生物視覺系統(tǒng)相提并論。回過頭來看,馬爾的視覺計算理論固然是一座重要的里程碑,但也是一個先天不足的早產(chǎn)兒。 馬爾的視覺計算理論采納了當時最新的神經(jīng)生理學成果,但當時的神經(jīng)生理學還不足以支撐這個新興學科,馬爾只能猜測視覺信息的處理過程?!氨碚鳌笔邱R爾視覺計算理論的核心之一,馬爾將之劃分為“要素圖→物體2.5維描述→3維描述”三個層級,但是提取這些表征的算法很難獲得可靠結果?!疤幚怼笔沁@套理論的核心之二,是“從一種表征獲得另一種表征的一個映射”,處理流程自底向上,而實際的生物視覺系統(tǒng)是“自頂向下”和“自底向上”相互作用的雙向動態(tài)過程。20世紀70年代神經(jīng)生理學家轉向解剖學和可塑性,馬爾認為是“停滯了”,這種看法失之偏頗。大腦皮層需要映射大千世界的各種復雜結構,必須有可塑性,這是大腦信息處理能力強大的關鍵。因此,這個“轉向”不是停滯,而是正確選擇。當然,即使在今天,要突破計算機視覺,腦科學和神經(jīng)科學仍然還有很長的路要走。 馬爾假定底層“物理實現(xiàn)”是計算機,這個將要創(chuàng)立的新學科不是機器視覺,而是計算機視覺,這在當時對促進兩個學科結合意義重大。但是,計算機并非實現(xiàn)機器視覺的理想平臺。生物大腦是個復雜的結構,已經(jīng)為一些復雜功能進化出了專門的結構,因此“算法”就可以相對簡單。經(jīng)典計算機是個簡單的串行結構,實現(xiàn)視覺功能需要復雜的算法,有些視覺功能難以實現(xiàn),甚至不能實現(xiàn),必須依靠神經(jīng)網(wǎng)絡才能實現(xiàn)。 “先結構,后功能”是最終解決視覺計算問題的必由之路。近年來,深度學習利用海量數(shù)據(jù)訓練出特征濾波器,采用多層神經(jīng)網(wǎng)絡結構提高表達能力,在圖像識別等方面已經(jīng)超越人類,說明“結構先行”的路線是有效的。當然,目前深度學習針對專門視覺任務“就事論事”,還遠不是視覺的全部。下一步應該從生物視覺系統(tǒng)中獲得更多支持:視網(wǎng)膜是億萬年“進化大數(shù)據(jù)”訓練的結果,是更為合適的視覺濾波器;視皮層不僅僅是多層結構,而是層級結構,這對人工神經(jīng)網(wǎng)絡設計也有重要參考價值;生物視覺對時空信息的處理機制更為巧妙,前饋、反饋和側向互動更是機器視覺應該學習的。 機器視覺要逼近乃至超越人類視覺,需要以人類視覺系統(tǒng)神經(jīng)網(wǎng)絡解析為基礎,先構造具有類似視覺功能的機器視覺系統(tǒng),再對該系統(tǒng)的信息加工過程進行分析,從而理解視覺功能背后的原理,進而設計更優(yōu)的機器視覺系統(tǒng)。縱使馬爾這樣的天才,也不能逆轉這個歷史過程。 15.回歸結構 機器視覺對生物視覺的借鑒,首先是視網(wǎng)膜信號加工和信息處理過程。神經(jīng)形態(tài)工程開創(chuàng)者卡弗·米德就對生物視覺特別著迷。他曾表示:“我對動物視覺系統(tǒng)背后的機制越來越佩服,我總是對自己說,‘我永遠也想不到這一點,但這確實是個好主意’?!痹谒闹笇?,1985年入學的博士生米莎(Misha Mahowald)研制出硅視網(wǎng)膜(silicon retina),采用與亞閾值MOS晶體管耦合的光電轉換器件仿真視感受器,用二維電阻網(wǎng)絡模擬視網(wǎng)膜水平細胞,將光電轉換信號和水平細胞之差作為雙極細胞輸出,能夠再現(xiàn)赫爾曼格點這樣的視錯覺現(xiàn)象。米莎入學時的專業(yè)方向是計算與神經(jīng)系統(tǒng)(computation and neural systems),1992年獲得了計算神經(jīng)科學(computational neuroscience)博士學位,這也是這個新興學科確立的重要標志。 接手米莎工作的師弟博阿漢實現(xiàn)了基于地址事件表達(Address Event Representation, AER)異步傳輸?shù)囊暰W(wǎng)膜形態(tài)視覺系統(tǒng)(之后他到斯坦福大學做神經(jīng)形態(tài)計算系統(tǒng)Neurogrid)。米莎1995年加入瑞士蘇黎世大學和聯(lián)邦理工學院聯(lián)合創(chuàng)辦的神經(jīng)信息學研究所,至今視覺神經(jīng)計算仍然是該所的重要研究方向。另外,多所大學也紛紛開展相關研究和芯片研制,仿視網(wǎng)膜應用日益增多。例如,IBM TrueNorth團隊就采用神經(jīng)信息學研究所的DVS芯片進行目標檢測。加里克·奧查德(Garrick Orchard)等人提出了一種利用AER視覺傳感器所蘊含的時域信息進行對象識別的方法。 仿視網(wǎng)膜芯片抓住了生物視網(wǎng)膜的部分特性,但還只是冰山一角。正如2010年的綜述論文《眼睛比科學家認為的更聰明:視網(wǎng)膜網(wǎng)絡中的神經(jīng)計算》所言,生物視網(wǎng)膜還有大量巧妙特性等待發(fā)現(xiàn)。為了獲得視網(wǎng)膜的精細結構,麻省理工學院腦和認知科學系的承現(xiàn)峻(Sebastian Seung,現(xiàn)在普林斯頓大學)2012年發(fā)起Eyewire眾包行動,來自150多個國家的20多萬網(wǎng)友參與鼠視網(wǎng)膜電鏡掃描圖像的標注,發(fā)現(xiàn)了支持方向選擇的具有時空連接特異性的精細網(wǎng)絡結構。 視皮層是大腦皮層中研究最多,也了解最多的部分,但就像大衛(wèi)·休伯爾(David H. Hubel, 1926-2013)所言,“我們可以看見中等距離的山巒,但還遠遠看不到盡頭”。從他和威塞爾(Torsten Wiesel, 1924-)1959年在貓初級視皮層(V1)發(fā)現(xiàn)對特定朝向敏感的神經(jīng)元以及眼優(yōu)勢柱開始,至今靈長類視皮層各功能區(qū)的精細分區(qū)已很清晰,從接收視束輸入的V1(紋狀皮層)到紋外V2、V3、V4、V5各分區(qū)之間的介觀連接圖譜已經(jīng)繪制完成,但神經(jīng)元和突觸層次的微觀網(wǎng)絡繪制還需要艱苦努力。2016年3月,美國情報高級研究計劃署MICrONS(大腦皮層網(wǎng)絡機器智能)計劃對1立方毫米的鼠視皮層進行反向工程,希望改進機器學習和人工智能算法,這是計算機視覺研究回歸神經(jīng)網(wǎng)絡結構基礎的重要標志。 在北京“腦科學與類腦研究”計劃《腦初級視覺系統(tǒng)解析仿真平臺研究與應用驗證》的支持下,北京大學對靈長類視網(wǎng)膜中央凹進行了精細解析和仿真建模。唐世明研究組對基因標記的清醒猴視皮層神經(jīng)元和樹突活動進行了長時間穩(wěn)定清晰成像 ,開啟了微觀層面研究視覺乃至高級認知功能的大門。 16.意識開關 眼睛是心靈之窗,是大腦感知外部世界最重要的通道。通往人類大腦的視覺、聽覺、觸覺和味覺等感知神經(jīng)共計300多萬根,其中每只眼睛各100多萬根。這些感知通道都采用神經(jīng)脈沖向大腦皮層報告外界環(huán)境的信息。1978年,美國神經(jīng)學家弗農(nóng)·蒙特卡斯特(Vernon Mountcastle, 1918-2015,1950年發(fā)現(xiàn)皮層功能柱結構)在《大腦功能的組織原理》中提出,大腦皮層處理視、聽、觸等感知信息的原理是一樣的。因此,一旦發(fā)現(xiàn)了大腦的視覺“算法”,也適合其他感知通道。 對于計算機視覺研究者來說,視覺往往就是指識別,但識別只是視覺的外顯功能。視覺首先是“覺”,即知覺或意識(awareness或consciousness)。清醒狀態(tài)下外部世界“如影隨形”,意識喪失前“眼前一黑”,就是視覺意識在起作用。閉上眼睛,即使最熟悉的人站在你面前,你也回憶不起長相細節(jié)。這說明我們習以為常的視覺是一個轉瞬即逝的狀態(tài),維護這個狀態(tài)就是生物視覺的基本任務。視覺占大腦功耗的一半,占全身1/10。我們“閉上眼睛想想”,實際上是要把能量調配到負責高級意識活動的腦區(qū)。 今天已經(jīng)普及的高清視頻(200萬像素,30幀/秒)的原始帶寬為1.5Gbps,人類兩只眼睛加起來的空間分辨率與之相當。但是,眼睛通往大腦的視神經(jīng)束的“數(shù)據(jù)帶寬”還不到10Mbps。那么,幽居于顱骨內(nèi)的大腦如何從這稀疏的神經(jīng)脈沖流中解碼出清晰的世界?如果能揭開生物神經(jīng)系統(tǒng)的編碼機理,就能找到極高效的視覺信息編解碼算法。 意識是活體大腦這個復雜神經(jīng)網(wǎng)絡系統(tǒng)的動力學現(xiàn)象,視覺是揭示意識奧秘的重要突破口。在采用自然科學方法解決意識問題的科學家中,弗朗西斯·克里克(Francis H. Crick, 1916-2004)是最著名的一位??死锟耸菆远ǖ倪€原主義者。1953年,他發(fā)現(xiàn)DNA雙螺旋結構,為復雜生命現(xiàn)象找到了精細的物質基礎。為了研究意識,1976年克里克加入美國圣迭亞哥索爾克研究所。1979年,克里克邀請馬爾和波焦來訪,探討視皮層結構和典型視覺功能的關系,例如初級視皮層的4cβ層的圖像插值和銳度提升作用。1981年,克里克在德國馬普生物控制論研究所遇到波焦的博士生克里斯托夫·科赫(Christof Koch,1956-)??坪债厴I(yè)后先在麻省理工學院跟隨波焦數(shù)年,1986年加入加州理工學院。他指導博士生伊狄(Laurent Itti)開啟的視覺顯著計算廣為人知,但他來加州理工學院的主要目的是與克里克相會。1990年,兩人合作發(fā)表《意識的神經(jīng)生物學理論芻議》,提出意識問題必須從也只能從神經(jīng)基礎進行逐步揭示,論文以視覺為例展開。2003年,兩人發(fā)表《意識的框架》,提出人類意識可能是大腦皮層前扣帶回的一組神經(jīng)元以伽馬振蕩形式產(chǎn)生的。同年,科赫出版《意識探秘》,仍然圍繞視覺展開,猜測在腹側視覺通路較高層最有可能找到視覺意識相關的神經(jīng)元。2004年,克里克去世那天還在修改一篇論文,猜測屏狀核可能是意識這首交響樂的總指揮。2014年,對一位左屏狀核附近安裝了電極的癲癇病人進行實驗表明,刺激確實可以起到意識開關作用。 從道理上講,用透顱磁刺激正常人屏狀核,就有可能體驗到意識的暫?;蛑貑?,眼前世界就會消失或重現(xiàn)。但大腦如果沒有自動重啟,那就真玩過火了!所以還是老老實實仿照生物大腦制造“電腦”和“電眼”吧,這樣就有機會動動它的“電屏狀核”,當然是它在蘇醒之前…… | 
|  |