原標題:深度學習:而今邁步從頭越
使用海量數(shù)據(jù)來識別照片和語音并實時翻譯講話,深度學習計算機朝著真正的人工邁進了一大步。英國《自然》雜志網(wǎng)站近日就此進行了報道。
深度學習東山再起
2012年,位于美國加州山景城的神秘莫測的Google X實驗室的研究人員用1000臺計算機(共有1.6萬個處理器)構(gòu)建出了全球最大的電子模擬神經(jīng)網(wǎng)絡——擁有10億個連接的人工神經(jīng)網(wǎng)絡“谷歌大腦”,并通過向其展示自YouTube視頻中提取出的約1000萬張靜止的圖像,考察其能學到什么。結(jié)果顯示,在無外界指令的自發(fā)條件下,該人工神經(jīng)網(wǎng)絡自主學會了識別人臉、人體甚至貓等類別的事物。
也許這看起來只是瑣碎的成就,除了表明貓的主人們熱衷于上傳寵物視頻,導致互聯(lián)網(wǎng)上貓的視頻隨處可見之外,說明不了更多問題,因此,這一發(fā)現(xiàn)也讓記者們訕笑不已。但實際上,該成果是深度學習東山再起的一個里程碑。
這一進步也意味著,谷歌在人工智能領(lǐng)域(AI)又達到了一個新的高度,在業(yè)界引發(fā)廣泛關(guān)注。對電腦用戶而言,人工智能研究一直前景廣闊,但迄今成果寥寥,不過情況慢慢發(fā)生了變化。在過去幾年內(nèi),包括谷歌、蘋果和IBM等在內(nèi)的互聯(lián)網(wǎng)巨擘們一直在積極爭奪在深度學習方面擁有專業(yè)技術(shù)的初創(chuàng)公司和研究人員。
對每個消費者來說,深度學習計算機的顯著進步所帶來的好處包括:軟件能更好地對照片進行篩查、理解語音指令并將對文本進行翻譯。而對科學家和醫(yī)學界人士而言,深度學習計算機能用來篩查藥物,標示出大腦內(nèi)真實的神經(jīng)網(wǎng)絡并預測蛋白質(zhì)的功能。
“人工智能研究領(lǐng)域遇到的挫敗可謂不可勝數(shù),但也取得了稍許進步,或許,未來的研究會一馬平川。”深度學習專家、美國紐約大學數(shù)據(jù)科學中心的主任楊樂康(音譯)表示。
“接下來的幾年內(nèi),很多人會投入深度學習的洪流當中。”美國加州大學伯克利分校的計算機圖像識別專家吉騰德拉·馬利克也認同這一觀點。
不過,從長遠來看,深度學習不一定會大獲全勝,研究人員目前正在研究的其他技術(shù)也顯示出了巨大的潛能。馬利克說:“隨著時間的推移,人們會知道,什么技術(shù)在何種領(lǐng)域表現(xiàn)最好。”
深度學習:讓機器學會思考和做決定
在解釋深度學習之前,我們需要了解什么是機器學習。機器學習是人工智能的一個分支,而在很多時候,幾乎成為人工智能的代名詞。簡單來說,機器學習就是通過算法,使得機器能從大量歷史數(shù)據(jù)中學習規(guī)律,從而對新的樣本做智能識別或?qū)ξ磥碜鲱A測。機器學習的發(fā)展大致經(jīng)歷了兩次浪潮:淺層學習和深度學習。
深度學習這一技術(shù)已有30年的歷史了。深度學習旨在模仿人腦的神經(jīng)網(wǎng)絡,其作用就如人類大腦里掌管知覺、運動指令、意識、語言的“新皮層”,它能自己學習辨識聲音、圖像和其他數(shù)據(jù),從而幫助計算機破解一些人類幾乎完全依靠直覺來解決的瑣碎問題,從識別人臉到理解語言等。
深度學習本身也源于一個更古老的計算理念:神經(jīng)網(wǎng)絡。這些神經(jīng)網(wǎng)絡系統(tǒng)模擬的是人腦內(nèi)神經(jīng)細胞之間的緊密關(guān)聯(lián)。這些神經(jīng)細胞可以彼此溝通,互相施加影響,當把這樣一個神經(jīng)網(wǎng)絡暴露在數(shù)據(jù)面前,不同神經(jīng)細胞之間的關(guān)系會發(fā)生改變。這樣,網(wǎng)絡就會發(fā)展出對某個類別的輸入數(shù)據(jù)作出特定反應的能力。通過這種方式,網(wǎng)絡就擁有了學習能力,“學”到了一些東西。
“谷歌大腦”大約有100萬個模擬神經(jīng)細胞,模擬了10億個連接,比此前的任何深度神經(jīng)網(wǎng)絡都要大10多倍。“谷歌大腦”項目的創(chuàng)辦人安德魯·恩格現(xiàn)在是美國斯坦福大學人工智能實驗室的主任,致力于使深度學習系統(tǒng)再擴大10倍。
發(fā)展歷程緩慢艱辛
在上世紀50年代,計算機還是新興事物,那時,第一代人工智能研究人員就滿懷期望地預測,完全成熟的人工智能很快就會到來。但隨著人們慢慢認識到客觀世界的極端復雜性,尤其是當人們開始接觸到諸如人臉為什么是人臉而非一張面具或猴臉這樣的知覺或感性問題時,這種過于樂觀的想法才逐漸偃旗息鼓。
標準的機器學習以及圖像識別技術(shù)依靠數(shù)以千計帶標簽的圖片,對電腦進行初始“訓練”,使電腦從一開始就對貓臉長什么樣有一個概念。但圖片加標簽需要耗費大量人力,成千上萬名研究人員耗費了數(shù)十年時間來為與計算機需要識別物體的不同特征有關(guān)的規(guī)則進行手工編碼。“找出這些特征非常困難,耗費時間而且需要專業(yè)知識。”恩格說,“你不得不問自己,是否還有更好的辦法,可以讓人解脫出來。”
在上世紀80年代,這種更好的方式似乎是神經(jīng)網(wǎng)絡內(nèi)的深度學習。這樣的系統(tǒng)可以從頭開始學習規(guī)則,而且具有令人愉悅的對稱性——使用受到大腦啟發(fā)的機制來完成類似大腦的功能。在這一系統(tǒng)中,模擬的神經(jīng)細胞被組織成不同的層,當向這樣的系統(tǒng)展示一副人臉的圖片時,第一層只是注意所有黑像素和亮像素;接下來的一層可能可以意識到這些像素會形成邊角;再下一層或許可以識別出橫線和豎線;最后一層或許可以認出眼睛,能夠意識到兩只眼睛實際上出現(xiàn)在同一張臉上。
馬利克說,與更簡單的系統(tǒng)相比,第一個深度學習軟件的表現(xiàn)可謂差強人意,而且使用起來還需要技巧。他說:“一直以來,神經(jīng)網(wǎng)絡都需要精細管理,而且其中充滿了各種竅門和技巧。”在學習過程中,這樣的系統(tǒng)需要被“喂食”大量的實例,就像嬰兒貪婪地從周圍世界中汲取大量信息一樣。在上世紀80年代到90年代,還沒有如現(xiàn)在一樣多的數(shù)字信息可用,而且,計算機的運行速度也很慢,因此,深度學習軟件本身非常罕見,其應用更是屈指可數(shù)。其中的一套軟件由楊樂康研發(fā),目前被銀行用來閱讀手寫的支票。
然而,到2000年左右,情況發(fā)生了巨大的變化,似乎是“一夜之間春風來,千樹萬樹梨花開”。2000年以來互聯(lián)網(wǎng)的高速發(fā)展,對大數(shù)據(jù)的智能化分析和預測提出了巨大需求。包括楊樂康和加拿大多倫多大學機器學習領(lǐng)域的泰斗杰弗里·希頓在內(nèi)的科學家確信,計算能力的增加和數(shù)字數(shù)據(jù)的大規(guī)模爆發(fā)意味著,深度學習復興的時刻到了。希頓的一名研究生喬治·德哈爾表示:“我們想向全世界證明,這些深度學習神經(jīng)網(wǎng)絡真的有用。”
2006年,希頓和學生在頂尖學術(shù)刊物《科學》上發(fā)表了一篇文章,開啟了深度學習在學術(shù)界和工業(yè)界的浪潮。這篇文章有兩個主要信息:一、很多隱層的人工神經(jīng)網(wǎng)絡具有優(yōu)異的特征學習能力,學習得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;二、深度神經(jīng)網(wǎng)絡在訓練上的難度,可以通過“逐層初始化”來有效克服,在這篇文章中,逐層初始化是通過無監(jiān)督學習實現(xiàn)的。
最初,希頓、德哈爾和其他人利用深度學習解決了一個非常困難但從經(jīng)濟角度而言非常重要的語音識別任務。2009年,研究人員報告稱,他們利用一組經(jīng)典的數(shù)據(jù)對一套深度學習軟件進行訓練——3個小時的錄音和語音翻譯,這套深度學習軟件能夠精確地理解語音的內(nèi)容,并將其轉(zhuǎn)化為文字,精確度創(chuàng)下了紀錄。德哈爾表示,這一進步引起了智能手機市場巨頭們的極大關(guān)注,他在微軟實習期間,將這套技術(shù)帶到了微軟。德哈爾說:“幾年后,這些巨頭們都開始研究深度學習。”例如,蘋果手機上的聲控數(shù)字助手(Siri)就是建立在深度學習的基礎(chǔ)上。
今天,谷歌、微軟等知名的擁有大數(shù)據(jù)的高科技公司爭相投入資源,占領(lǐng)深度學習的技術(shù)制高點,正是因為它們都看到了在大數(shù)據(jù)時代,更加復雜且更加強大的深度模型能深刻揭示海量數(shù)據(jù)里所承載的復雜而豐富的信息,并對未來或未知事件作出更精準的預測。
已有0人發(fā)表了評論