在語音和圖像識(shí)別領(lǐng)域取得巨大飛躍
當(dāng)谷歌公司在其安卓智能手機(jī)操作系統(tǒng)上采用基于深度學(xué)習(xí)的語音識(shí)別技術(shù)后,其單詞拼寫的錯(cuò)誤率下降了25%,這是語音識(shí)別領(lǐng)域10多年來最大的突破性進(jìn)展。“我們耗費(fèi)10年時(shí)間才能做到這一點(diǎn)。”希頓表示,這也反映了要想在這一領(lǐng)域取得突破是多么困難。
與此同時(shí),恩格也說服谷歌,讓他使用該公司與“谷歌大腦”有關(guān)的數(shù)據(jù)和計(jì)算機(jī)。“谷歌大腦”能從互聯(lián)網(wǎng)視頻中識(shí)別出貓的圖像,這極準(zhǔn)確而恰當(dāng)?shù)卣故玖藷o人監(jiān)督學(xué)習(xí)的潛力。無人監(jiān)督學(xué)習(xí)是最困難的學(xué)習(xí)任務(wù),因?yàn)檩斎氲男畔]有附著任何解釋性信息,比如姓名、標(biāo)簽或類別等。但恩格很快遇到了麻煩,因?yàn)楹苌儆泄雀枰酝獾难芯咳藛T擁有如此豐富而有力工具來開展與深度學(xué)習(xí)有關(guān)的研究。“我和很多人談過話,很多學(xué)生沮喪地跑過來告訴我說,我又沒有1000臺(tái)計(jì)算機(jī)來用,我如何進(jìn)行這類研究呢?”
因此,恩格回到斯坦福大學(xué),開始利用圖形處理單元(GPU,這種運(yùn)行速度超快的芯片主要為游戲而研發(fā))來研制更大、成本更低的深度學(xué)習(xí)網(wǎng)絡(luò),也有很多人在這么做。恩格說:“使用大約價(jià)值10萬美元的硬件,我們能利用64個(gè)GPU,建造出一個(gè)擁有110億個(gè)連接的網(wǎng)絡(luò)。”
但這樣的系統(tǒng)要想贏得機(jī)器視覺科學(xué)家的青睞,可能還需要“百尺竿頭,更進(jìn)一步”。這些機(jī)器視覺科學(xué)家希望能在標(biāo)準(zhǔn)化測(cè)試方面看到其優(yōu)異的表現(xiàn)。馬利克記得,希頓曾經(jīng)問過他:“你是一個(gè)懷疑論者,什么使你如此確信深度學(xué)習(xí)系統(tǒng)的潛力呢?”馬利克回答說:“深度學(xué)習(xí)系統(tǒng)在國(guó)際聞名的數(shù)據(jù)池(ImageNet)競(jìng)賽中取勝或許讓我看到了其巨大的潛能。”
在該比賽中,研究團(tuán)隊(duì)需要訓(xùn)練計(jì)算機(jī)程序識(shí)別與100萬張圖像有關(guān)的一套數(shù)據(jù),這些圖像已被人工貼上了各類標(biāo)簽。經(jīng)過訓(xùn)練后,通過讓這些程序從以前未曾見過的圖像中找出同樣的標(biāo)簽來測(cè)試這些程序的性能。每一幅測(cè)試圖像,程序都會(huì)給出5個(gè)答案,如果正確的答案并非其中之一,那么,這一測(cè)試就被認(rèn)為是錯(cuò)誤的。以前,獲勝者們一般的出錯(cuò)率為25%。2012年,希頓的實(shí)驗(yàn)室使用深度學(xué)習(xí)獲得了冠軍,錯(cuò)誤率僅為15%。
楊樂康并非這個(gè)團(tuán)隊(duì)的一員,不過,他說:“深度學(xué)習(xí)影響了很多方面。”這次獲勝讓希頓在谷歌獲得了一份兼職工作,該公司2013年也使用該程序來對(duì)其谷歌+圖像搜索軟件進(jìn)行了升級(jí)。
馬利克說:“在科學(xué)領(lǐng)域,你經(jīng)常會(huì)受到經(jīng)驗(yàn)證據(jù)的擺弄,而這是扎扎實(shí)實(shí)的證據(jù)。”后來,他攜這項(xiàng)技術(shù)參與另一項(xiàng)視覺識(shí)別競(jìng)賽,并破了紀(jì)錄。很多人開始效尤這一做法:2013年,所有參加ImageNet競(jìng)賽的團(tuán)隊(duì)都開始使用深度學(xué)習(xí)技術(shù)。
隨著深度學(xué)習(xí)技術(shù)在圖像和語音識(shí)別領(lǐng)域不斷取得突破,科學(xué)家們對(duì)用其來處理自然語言的興趣也與日俱增,包括用其來理解人類的演說以進(jìn)行轉(zhuǎn)述或回答相關(guān)問題,將一種語言翻譯成另一種語言等?,F(xiàn)在,科學(xué)家們使用手寫的規(guī)則和對(duì)已知的文本進(jìn)行統(tǒng)計(jì)分析來做上述事情。深度學(xué)習(xí)在自然語言方面的最好表現(xiàn)在“谷歌翻譯”這樣的軟件上得到了彰顯,盡管谷歌翻譯能提供可理解的結(jié)果,但是,與人類的翻譯比起來,還要差很多。
總的來說,深度學(xué)習(xí)在自然語言處理方面取得的進(jìn)展沒有在語音圖像上那么令人印象深刻。一個(gè)很有意思的悖論是:相比于聲音和圖像,語言是唯一的非自然信號(hào),是完全由人類大腦產(chǎn)生和處理的符號(hào)系統(tǒng),但模仿人腦結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)卻似乎在處理自然語言上沒有顯現(xiàn)明顯優(yōu)勢(shì)。
語言學(xué)習(xí)翻譯服務(wù)網(wǎng)站Duolingo的創(chuàng)辦者、卡內(nèi)基梅隆大學(xué)教授路易斯·馮·安表示:“在這一方面,深度學(xué)習(xí)還有很大的探索空間,從2006年圖像深度學(xué)習(xí)成為學(xué)術(shù)界熱門課題到2012年10月希頓在ImageNet上取得重大突破,經(jīng)歷了6年時(shí)間。我們需要有足夠的耐心。我們也相信,深度學(xué)習(xí)在自然語言處理方面的表現(xiàn)會(huì)越來越好。”
在其他領(lǐng)域擁有巨大運(yùn)用潛力
與此同時(shí),科學(xué)家們也不斷證明,深度學(xué)習(xí)在完成很多科研任務(wù)方面非常管用。希頓說:“深度網(wǎng)絡(luò)真的很擅長(zhǎng)在數(shù)據(jù)組中發(fā)現(xiàn)模式。”
2012年10月份,希頓領(lǐng)導(dǎo)的研究團(tuán)隊(duì)贏得了美國(guó)化學(xué)與制藥公司默克公司舉辦的一場(chǎng)競(jìng)賽,競(jìng)賽的主旨是鑒別出可導(dǎo)致新藥的分子,該團(tuán)隊(duì)正是采用深度學(xué)習(xí)的方法,將目標(biāo)對(duì)準(zhǔn)那些最有可能與靶標(biāo)綁定的分子,從而取得成功贏得了2.2萬美元的獎(jiǎng)金。希頓說:“我們將默克公司的基準(zhǔn)提高了15%。”美國(guó)《紐約時(shí)報(bào)》也對(duì)這一重要成果進(jìn)行了詳細(xì)報(bào)道。
包括美國(guó)麻省理工學(xué)院的塞巴斯蒂安·程在內(nèi)的生物學(xué)家和計(jì)算研究人員目前正利用深度學(xué)習(xí)技術(shù)來幫助他們分析大腦切片的三維圖像。這樣的圖像包含有很多揉成一團(tuán)的線條,這些線條代表了神經(jīng)細(xì)胞之間的連接,需要將這些線條鑒別出來,以便于對(duì)其進(jìn)行標(biāo)示和計(jì)數(shù)。以前,他們的做法是,招募本科生來追蹤和勾勒這些線條,但讓這一過程自動(dòng)化是處理數(shù)十億計(jì)連接的唯一方式。深度學(xué)習(xí)似乎是自動(dòng)化的最好方式。塞巴斯蒂安·程目前正使用深度學(xué)習(xí)程序來標(biāo)示視網(wǎng)膜內(nèi)的神經(jīng)細(xì)胞,接著會(huì)將得到的結(jié)果提交給志愿者進(jìn)行校對(duì)。
美國(guó)華盛頓大學(xué)的計(jì)算機(jī)專家威廉姆·斯塔福-諾貝爾則使用深度學(xué)習(xí)來教導(dǎo)程序檢查一串氨基酸并對(duì)得到的蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。例如,不同的氨基酸序列會(huì)形成螺旋還是環(huán);某個(gè)溶劑是否能很容易地滲入結(jié)構(gòu)內(nèi)的縫隙中等等。迄今為止,諾貝爾已經(jīng)訓(xùn)練這一程序能識(shí)別小的數(shù)據(jù)組,在接下來的幾個(gè)月內(nèi),他將使用包含有10萬個(gè)結(jié)構(gòu)的蛋白質(zhì)數(shù)據(jù)庫來檢驗(yàn)這套深度學(xué)習(xí)軟件的性能。
對(duì)計(jì)算機(jī)專家們而言,深度學(xué)習(xí)可能會(huì)讓他們獲益頗豐:德哈爾正在考慮創(chuàng)辦深度學(xué)習(xí)公司;而楊樂康上個(gè)月被“臉譜”網(wǎng)站雇傭,成為該網(wǎng)站新成立的人工智能部門的負(fù)責(zé)人。恩格說:“深度學(xué)習(xí)不再是養(yǎng)在深閨無人時(shí),目前正生逢其時(shí),你填入的數(shù)據(jù)越多,它的表現(xiàn)也就越好。”不過,他也強(qiáng)調(diào)說:“盡管很多時(shí)候,深度學(xué)習(xí)算法都非唯一的解決辦法,但它是最好的,當(dāng)然也是最容易的。這也是為什么其未來擁有巨大潛力的原因。”
其他競(jìng)爭(zhēng)性的想法
當(dāng)然,也并非所有科學(xué)家都看好深度學(xué)習(xí),他們正在嘗試使用其他方法來解決問題。比如,美國(guó)華盛頓大學(xué)計(jì)算機(jī)科學(xué)與工程系教授、艾倫人工智能研究所的負(fù)責(zé)人奧倫·埃齊奧尼的目標(biāo)是發(fā)明一臺(tái)計(jì)算機(jī)——當(dāng)給其“喂食”一堆經(jīng)過掃描的教科書后,其能通過標(biāo)準(zhǔn)化的小學(xué)科學(xué)測(cè)試(如果其不斷加強(qiáng),最終能通過大學(xué)入學(xué)考試)。為了通過這些測(cè)試,這臺(tái)計(jì)算機(jī)必須能閱讀并理解圖表和文本。不過,艾倫人工智能研究所如何實(shí)現(xiàn)這一目標(biāo)還是一個(gè)未知數(shù)。但對(duì)埃齊奧尼來說,神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)并非他們的首選。
一個(gè)競(jìng)爭(zhēng)性的想法是,讓計(jì)算機(jī)能在基本輸入事實(shí)上的基礎(chǔ)上進(jìn)行推理,而非從頭開始學(xué)習(xí)事實(shí)。因此,科學(xué)家們或許會(huì)為這種計(jì)算機(jī)編寫程序,讓其識(shí)別“所有的女孩都是人”這樣的論斷。接著,當(dāng)一篇提到一個(gè)女孩的文本被提交給這臺(tái)計(jì)算機(jī)時(shí),計(jì)算機(jī)能推導(dǎo)出這個(gè)女孩是人。但這樣的計(jì)算機(jī)也有自己的問題,因?yàn)槲覀冎車氖澜缣姺睆?fù)雜,即使沒有數(shù)百萬個(gè),也有數(shù)十萬個(gè)這樣的事實(shí)。
目前,在這方面表現(xiàn)最好的就是IBM公司的計(jì)算機(jī)沃森(Watson)。Watson運(yùn)算更快,記憶力更好,它也懂一些人類語言中的暗喻和雙關(guān)。2011年,Watson在美國(guó)最受歡迎的智力競(jìng)賽節(jié)目Jeopardy中戰(zhàn)勝人類,獲得冠軍,從而聲名大噪。盡管如此,IBM公司沃森解決方案實(shí)驗(yàn)室的科學(xué)家們對(duì)深度學(xué)習(xí)在改進(jìn)模式識(shí)別方面的優(yōu)異表現(xiàn)也產(chǎn)生了興趣。
谷歌也是如此,盡管其圖像標(biāo)記方面的最新進(jìn)展主要得益于辛頓的深度學(xué)習(xí)網(wǎng)絡(luò),但其他研發(fā)部門也得到了足夠多的關(guān)注。2012年12月,谷歌雇傭未來學(xué)家雷·庫茲韋爾做其工程部主管,庫茲韋爾的主要任務(wù)是使用但不局限于深度學(xué)習(xí)的技術(shù),來為計(jì)算機(jī)尋找不同的方式,讓其能從日常經(jīng)驗(yàn)中學(xué)習(xí)。
去年5月份,谷歌購買了一臺(tái)由加拿大D-Wave公司研制而成的量子計(jì)算機(jī)。盡管從理論上而言,這臺(tái)計(jì)算機(jī)能用于深度學(xué)習(xí)領(lǐng)域,但科學(xué)家們目前主要用其來處理非人工智能方面的任務(wù),比如困難的數(shù)學(xué)計(jì)算等。
深度學(xué)習(xí)帶來了機(jī)器學(xué)習(xí)的一個(gè)新浪潮,受到從學(xué)術(shù)界到工業(yè)界的廣泛重視,也導(dǎo)致了“大數(shù)據(jù)+深度模型”時(shí)代的來臨。在應(yīng)用方面,深度學(xué)習(xí)使得語音圖像的智能識(shí)別和理解取得驚人進(jìn)展,從而推動(dòng)人工智能和人機(jī)交互大踏步前進(jìn)。盡管如此,深度學(xué)習(xí)仍然還處于襁褓階段。“它是未來的一部分。”德哈爾說,我們才剛剛開始。如果我們能在理論、建模和工程方面,突破深度學(xué)習(xí)技術(shù)面臨的一系列難題,人工智能的夢(mèng)想將不再遙遠(yuǎn)。
已有0人發(fā)表了評(píng)論