在過去的幾十年,,神經(jīng)科學家一直在努力設計能夠模擬人類大腦精確和迅速完成的視覺技巧,,例如識別物體,的計算機網(wǎng)絡。在此之前沒有任何一個計算機模型可以匹配類人猿大腦在短暫一瞥后對視覺物體的識別能力,。而現(xiàn)在,,美國麻省理工學院神經(jīng)科學家進行的最新研究發(fā)現(xiàn)了最新一代所謂的“深層神經(jīng)網(wǎng)絡” 之一能夠與靈長類動物大腦相匹配。
科學家成功建立計算機網(wǎng)絡模擬人類大腦識別物體
由于這些網(wǎng)絡是基于神經(jīng)科學家目前對大腦如何進行物體識別的理解,,因此最新網(wǎng)絡的成功表明神經(jīng)科學家已經(jīng)對物體識別的基本原理有了較為精確的把握,,研究高級作者、麻省理工學院大腦與認知科學學院院長,、神經(jīng)科學教授詹姆斯·狄卡羅(James DiCarlo)這樣說道,。這項研究被發(fā)表在12月11日的期刊《公共科學圖書館·計算機生物學》上。
“這些模型能夠預測神經(jīng)反應和神經(jīng)群體空間里的物體距離,,這表明這些模型囊括了我們目前對大腦這一神秘部分的最好理解,,” MIT麥克戈文大腦研究所的成員狄卡羅這樣表示。
對靈長類動物大腦工作原理的更好理解將促進人工智能的開發(fā),,以及有朝一日修復視覺功能紊亂的新方法,,研究首席作者、麥克戈文大腦研究所的博士后查爾斯·卡迪厄(Charles Cadieu)補充說道,。文章其它合作作者包括研究生洪哈(Ha Hong)和蒂亞戈·阿迪拉(Diego Ardila),、研究科學家丹尼爾·亞敏斯(Daniel Yamins)、前MIT研究生尼古拉斯·品托(Nicolas Pinto),、前MIT本科生伊?!に_門(Ethan Solomon),以及研究員納吉布·馬賈杰(Najib Majaj),。
受到大腦的啟發(fā)
早在20世紀70年代科學家們就開始建立神經(jīng)網(wǎng)絡,希望能夠模擬大腦處理視覺信息,、識別言語以及理解語言的能力,。對于基于視覺的神經(jīng)網(wǎng)絡,科學家們受到了大腦視覺信息層次表示的啟發(fā),。隨著視覺輸入從視網(wǎng)膜依次進入初級視皮層和顳下(IT)皮層,,視覺輸入在每一個層面上都被處理,變得越來越明確,,直到物體最終被確定,。
為了模擬這個過程,神經(jīng)網(wǎng)絡設計者在計算機模型里創(chuàng)造了多個計算層,。每一層執(zhí)行一個數(shù)學操作,,例如線性點產(chǎn)品。在每一個層面上,,視覺物體的表示變得越來越復雜,,而無關緊要的信息,例如物體的位置或者移動則被拋棄,。
“每一個單獨元素一般都是一個簡單的數(shù)學表達,,” 卡迪厄說道,。“當你將上百千萬個這樣的數(shù)學表達相結合時,,就能實現(xiàn)將原始信號通過復雜的轉(zhuǎn)化變成非常適合物體識別的表現(xiàn),。”在這項研究里,,科研人員首次測量了大腦的物體識別能力,。洪和馬賈杰帶領進行的研究在顳下皮層和V4區(qū)——連接顳下皮層的視覺系統(tǒng)的一部分——植入電極陣列。這使得他們能夠觀察到動物看到每一個物體時所產(chǎn)生的神經(jīng)表現(xiàn),,也就是做出反應的神經(jīng)元數(shù)量,。
隨后研究人員將這些神經(jīng)表現(xiàn)與深層神經(jīng)網(wǎng)絡產(chǎn)生的神經(jīng)表現(xiàn)進行對比,后者包含系統(tǒng)里每一個計算元素所產(chǎn)生的數(shù)字矩陣,。每一張圖片會產(chǎn)生不同的數(shù)字陣列,。這一模型的精確性是由它是否能夠?qū)⑾嗨莆矬w組織形成神經(jīng)表現(xiàn)里的相似群集所決定的。
“通過每一個這樣的計算變換,,通過這個網(wǎng)絡的每一層,,特定的物體或者圖片會逐漸靠近,而其它物體會距離越來越遠,?!?卡迪厄說道。最合適的網(wǎng)絡是由美國紐約大學的研究人員研發(fā)的,,這一網(wǎng)絡將物體和短尾猿大腦進行分類,。
更強大的處理能力
近期發(fā)現(xiàn)的這一成功的神經(jīng)網(wǎng)絡取決于兩個重要因素。其中一個是計算機處理能力的重大飛躍,。研究人員一直利用圖形處理單元(GPUs),,一種高性能處理視頻游戲所需的巨大視覺內(nèi)容的小芯片。第二個因素是研究人員現(xiàn)在能夠使用并向大型數(shù)據(jù)集輸入算法從而“訓練”它們,。這些數(shù)據(jù)集包含上百萬張圖片,,每一張圖片都是由人們從不同鑒別層面進行注解。例如一張狗的圖片可以被注解為動物,、犬類動物,、家養(yǎng)狗或者狗的品種。
最初,,神經(jīng)網(wǎng)絡并不擅長鑒別這些圖片,,但隨著它們看到越來越多圖片,并在發(fā)現(xiàn)自己出錯后,,會逐漸改進它們的計算,,直到最后能夠更加精確的鑒別物體。卡迪厄表示研究人員并不知道什么導致這些神經(jīng)網(wǎng)絡能夠區(qū)分不同物體,。
“這既是優(yōu)點又是缺點,,” 卡迪厄表示?!皟?yōu)點在于我們并不需要知道具體區(qū)分這些物體的東西,。但一個大缺點便是很難監(jiān)視這些網(wǎng)絡,調(diào)查內(nèi)部情況?,F(xiàn)在人們發(fā)現(xiàn)這些神經(jīng)網(wǎng)絡非??煽浚麄儗⒈M力理解內(nèi)部的工作原理,?!?/p>
狄卡羅的實驗室目前正在試圖產(chǎn)生模仿視覺處理其它方面的模型,包括跟蹤運動和識別三維形式,。他們還希望可以建立一個包含人體視覺系統(tǒng)里反饋投射的模型,。目前的網(wǎng)絡只對從視網(wǎng)膜到顳下皮層的“向前”投射進行建模,而從顳下皮層到系統(tǒng)其它部分還有多達10倍的連接,。