在過(guò)去的幾十年,,神經(jīng)科學(xué)家一直在努力設(shè)計(jì)能夠模擬人類(lèi)大腦精確和迅速完成的視覺(jué)技巧,,例如識(shí)別物體,的計(jì)算機(jī)網(wǎng)絡(luò),。在此之前沒(méi)有任何一個(gè)計(jì)算機(jī)模型可以匹配類(lèi)人猿大腦在短暫一瞥后對(duì)視覺(jué)物體的識(shí)別能力,。而現(xiàn)在,美國(guó)麻省理工學(xué)院神經(jīng)科學(xué)家進(jìn)行的最新研究發(fā)現(xiàn)了最新一代所謂的“深層神經(jīng)網(wǎng)絡(luò)” 之一能夠與靈長(zhǎng)類(lèi)動(dòng)物大腦相匹配,。
科學(xué)家成功建立計(jì)算機(jī)網(wǎng)絡(luò)模擬人類(lèi)大腦識(shí)別物體
由于這些網(wǎng)絡(luò)是基于神經(jīng)科學(xué)家目前對(duì)大腦如何進(jìn)行物體識(shí)別的理解,,因此最新網(wǎng)絡(luò)的成功表明神經(jīng)科學(xué)家已經(jīng)對(duì)物體識(shí)別的基本原理有了較為精確的把握,研究高級(jí)作者,、麻省理工學(xué)院大腦與認(rèn)知科學(xué)學(xué)院院長(zhǎng),、神經(jīng)科學(xué)教授詹姆斯·狄卡羅(James DiCarlo)這樣說(shuō)道。這項(xiàng)研究被發(fā)表在12月11日的期刊《公共科學(xué)圖書(shū)館·計(jì)算機(jī)生物學(xué)》上,。
“這些模型能夠預(yù)測(cè)神經(jīng)反應(yīng)和神經(jīng)群體空間里的物體距離,,這表明這些模型囊括了我們目前對(duì)大腦這一神秘部分的最好理解,” MIT麥克戈文大腦研究所的成員狄卡羅這樣表示,。
對(duì)靈長(zhǎng)類(lèi)動(dòng)物大腦工作原理的更好理解將促進(jìn)人工智能的開(kāi)發(fā),,以及有朝一日修復(fù)視覺(jué)功能紊亂的新方法,研究首席作者,、麥克戈文大腦研究所的博士后查爾斯·卡迪厄(Charles Cadieu)補(bǔ)充說(shuō)道,。文章其它合作作者包括研究生洪哈(Ha Hong)和蒂亞戈·阿迪拉(Diego Ardila)、研究科學(xué)家丹尼爾·亞敏斯(Daniel Yamins),、前MIT研究生尼古拉斯·品托(Nicolas Pinto),、前MIT本科生伊桑·所羅門(mén)(Ethan Solomon),,以及研究員納吉布·馬賈杰(Najib Majaj),。
受到大腦的啟發(fā)
早在20世紀(jì)70年代科學(xué)家們就開(kāi)始建立神經(jīng)網(wǎng)絡(luò),希望能夠模擬大腦處理視覺(jué)信息,、識(shí)別言語(yǔ)以及理解語(yǔ)言的能力,。對(duì)于基于視覺(jué)的神經(jīng)網(wǎng)絡(luò),科學(xué)家們受到了大腦視覺(jué)信息層次表示的啟發(fā)。隨著視覺(jué)輸入從視網(wǎng)膜依次進(jìn)入初級(jí)視皮層和顳下(IT)皮層,,視覺(jué)輸入在每一個(gè)層面上都被處理,,變得越來(lái)越明確,直到物體最終被確定,。
為了模擬這個(gè)過(guò)程,,神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)者在計(jì)算機(jī)模型里創(chuàng)造了多個(gè)計(jì)算層。每一層執(zhí)行一個(gè)數(shù)學(xué)操作,,例如線性點(diǎn)產(chǎn)品,。在每一個(gè)層面上,視覺(jué)物體的表示變得越來(lái)越復(fù)雜,,而無(wú)關(guān)緊要的信息,,例如物體的位置或者移動(dòng)則被拋棄。
“每一個(gè)單獨(dú)元素一般都是一個(gè)簡(jiǎn)單的數(shù)學(xué)表達(dá),,” 卡迪厄說(shuō)道,。“當(dāng)你將上百千萬(wàn)個(gè)這樣的數(shù)學(xué)表達(dá)相結(jié)合時(shí),,就能實(shí)現(xiàn)將原始信號(hào)通過(guò)復(fù)雜的轉(zhuǎn)化變成非常適合物體識(shí)別的表現(xiàn),。”在這項(xiàng)研究里,,科研人員首次測(cè)量了大腦的物體識(shí)別能力,。洪和馬賈杰帶領(lǐng)進(jìn)行的研究在顳下皮層和V4區(qū)——連接顳下皮層的視覺(jué)系統(tǒng)的一部分——植入電極陣列。這使得他們能夠觀察到動(dòng)物看到每一個(gè)物體時(shí)所產(chǎn)生的神經(jīng)表現(xiàn),,也就是做出反應(yīng)的神經(jīng)元數(shù)量,。
隨后研究人員將這些神經(jīng)表現(xiàn)與深層神經(jīng)網(wǎng)絡(luò)產(chǎn)生的神經(jīng)表現(xiàn)進(jìn)行對(duì)比,后者包含系統(tǒng)里每一個(gè)計(jì)算元素所產(chǎn)生的數(shù)字矩陣,。每一張圖片會(huì)產(chǎn)生不同的數(shù)字陣列,。這一模型的精確性是由它是否能夠?qū)⑾嗨莆矬w組織形成神經(jīng)表現(xiàn)里的相似群集所決定的。
“通過(guò)每一個(gè)這樣的計(jì)算變換,,通過(guò)這個(gè)網(wǎng)絡(luò)的每一層,,特定的物體或者圖片會(huì)逐漸靠近,而其它物體會(huì)距離越來(lái)越遠(yuǎn),?!?卡迪厄說(shuō)道。最合適的網(wǎng)絡(luò)是由美國(guó)紐約大學(xué)的研究人員研發(fā)的,,這一網(wǎng)絡(luò)將物體和短尾猿大腦進(jìn)行分類(lèi),。
更強(qiáng)大的處理能力
近期發(fā)現(xiàn)的這一成功的神經(jīng)網(wǎng)絡(luò)取決于兩個(gè)重要因素。其中一個(gè)是計(jì)算機(jī)處理能力的重大飛躍,。研究人員一直利用圖形處理單元(GPUs),,一種高性能處理視頻游戲所需的巨大視覺(jué)內(nèi)容的小芯片。第二個(gè)因素是研究人員現(xiàn)在能夠使用并向大型數(shù)據(jù)集輸入算法從而“訓(xùn)練”它們,。這些數(shù)據(jù)集包含上百萬(wàn)張圖片,,每一張圖片都是由人們從不同鑒別層面進(jìn)行注解。例如一張狗的圖片可以被注解為動(dòng)物,、犬類(lèi)動(dòng)物,、家養(yǎng)狗或者狗的品種。
最初,,神經(jīng)網(wǎng)絡(luò)并不擅長(zhǎng)鑒別這些圖片,,但隨著它們看到越來(lái)越多圖片,并在發(fā)現(xiàn)自己出錯(cuò)后,,會(huì)逐漸改進(jìn)它們的計(jì)算,,直到最后能夠更加精確的鑒別物體??ǖ隙虮硎狙芯咳藛T并不知道什么導(dǎo)致這些神經(jīng)網(wǎng)絡(luò)能夠區(qū)分不同物體,。
“這既是優(yōu)點(diǎn)又是缺點(diǎn),” 卡迪厄表示,?!皟?yōu)點(diǎn)在于我們并不需要知道具體區(qū)分這些物體的東西。但一個(gè)大缺點(diǎn)便是很難監(jiān)視這些網(wǎng)絡(luò),,調(diào)查內(nèi)部情況?,F(xiàn)在人們發(fā)現(xiàn)這些神經(jīng)網(wǎng)絡(luò)非常可靠,,他們將盡力理解內(nèi)部的工作原理,。”
狄卡羅的實(shí)驗(yàn)室目前正在試圖產(chǎn)生模仿視覺(jué)處理其它方面的模型,,包括跟蹤運(yùn)動(dòng)和識(shí)別三維形式,。他們還希望可以建立一個(gè)包含人體視覺(jué)系統(tǒng)里反饋投射的模型。目前的網(wǎng)絡(luò)只對(duì)從視網(wǎng)膜到顳下皮層的“向前”投射進(jìn)行建模,,而從顳下皮層到系統(tǒng)其它部分還有多達(dá)10倍的連接,。