學(xué)習(xí)的勵(lì)志文章(2)
學(xué)習(xí)的勵(lì)志文章
學(xué)習(xí)的勵(lì)志文章:深度學(xué)習(xí)是什么?
作者:獵豹CEO傅盛
人工智能,就好像第四次工業(yè)革命,正從學(xué)術(shù)界的私藏,轉(zhuǎn)變?yōu)橐环N能夠改變世界的力量。尤其,以深度學(xué)習(xí)取得的進(jìn)步為顯著標(biāo)志。它讓匍匐前進(jìn)60年的人工智能一鳴驚人。我們正降落到一片新大陸。深度學(xué)習(xí)帶來(lái)的這場(chǎng)重大技術(shù)革命,有可能顛覆過(guò)去20年互聯(lián)網(wǎng)對(duì)技術(shù)的認(rèn)知,實(shí)現(xiàn)技術(shù)體驗(yàn)的跨越式發(fā)展。
那么,深度學(xué)習(xí)到底是什么?怎么理解它的重要性?
我們先從概念和現(xiàn)象入手。我總結(jié)了一句話(huà),學(xué)術(shù)上看未必嚴(yán)謹(jǐn),但從我的理解角度看——深度學(xué)習(xí)是基于多層神經(jīng)網(wǎng)絡(luò)的,海量數(shù)據(jù)為輸入的,規(guī)則自學(xué)習(xí)方法。
這里包含了幾個(gè)關(guān)鍵詞:
第一個(gè)關(guān)鍵詞叫多層神經(jīng)網(wǎng)絡(luò)。
深度學(xué)習(xí)所基于的多層神經(jīng)網(wǎng)絡(luò)并非新鮮事物,甚至在80年代被認(rèn)為沒(méi)前途。但近年來(lái),科學(xué)家們對(duì)多層神經(jīng)網(wǎng)絡(luò)的不斷算法優(yōu)化,使它出現(xiàn)了突破性的進(jìn)展。以往很多算法是線(xiàn)性的。而這世界上大多數(shù)事情的特征是復(fù)雜非線(xiàn)性的。比如貓的圖像中,就包含了顏色、形態(tài)、五官、光線(xiàn)等各種信息。深度學(xué)習(xí)的關(guān)鍵就是通過(guò)多層非線(xiàn)性映射將這些因素成功分開(kāi)。
那為什么要深呢?多層神經(jīng)網(wǎng)絡(luò)比淺層的好處在哪兒呢?
簡(jiǎn)單說(shuō),就是可以減少參數(shù)。因?yàn)樗貜?fù)利用中間層的計(jì)算單元。我們還是以認(rèn)貓為例好了。它可以學(xué)習(xí)貓的分層特征:最底層從原始像素開(kāi)始學(xué)習(xí),刻畫(huà)局部的邊緣和紋;中層把各種邊緣進(jìn)行組合,描述不同類(lèi)型的貓的器官;最高層描述的是整個(gè)貓的全局特征。它需要超強(qiáng)的計(jì)算能力,同時(shí)還不斷有海量數(shù)據(jù)的輸入。特別是在信息表示和特征設(shè)計(jì)方面,過(guò)去大量依賴(lài)人工,嚴(yán)重影響有效性和通用性。深度學(xué)習(xí)則徹底顛覆了“人造特征”的范式,開(kāi)啟了數(shù)據(jù)驅(qū)動(dòng)的“表示學(xué)習(xí)”范式——由數(shù)據(jù)自提取特征,計(jì)算機(jī)自己發(fā)現(xiàn)規(guī)則,進(jìn)行自學(xué)習(xí)。
你可以理解為——過(guò)去,人們對(duì)經(jīng)驗(yàn)的利用,靠人類(lèi)自己完成。在深度學(xué)習(xí)呢?經(jīng)驗(yàn),以數(shù)據(jù)形式存在。因此,深度學(xué)習(xí),就是關(guān)于在計(jì)算機(jī)上從數(shù)據(jù)中產(chǎn)生模型的算法,即深度學(xué)習(xí)算法。
問(wèn)題來(lái)了,幾年前講大數(shù)據(jù),以及各種算法,與深度學(xué)習(xí)有什么區(qū)別呢?
過(guò)去的算法模式,數(shù)學(xué)上叫線(xiàn)性,x和y的關(guān)系是對(duì)應(yīng)的,它是一種函數(shù)體現(xiàn)的映射。但這種算法在海量數(shù)據(jù)面前遇到了瓶頸。國(guó)際上著名的ImageNet圖像分類(lèi)大賽,用傳統(tǒng)算法,識(shí)別錯(cuò)誤率一直降不下去,上深度學(xué)習(xí)后,錯(cuò)誤率大幅降低。在2010年,獲勝的系統(tǒng)只能正確標(biāo)記72%的圖片;到2012年,多倫多大學(xué)的 Geoff Hinton利用深度學(xué)習(xí)的新技術(shù),帶領(lǐng)團(tuán)隊(duì)實(shí)現(xiàn)了85%的準(zhǔn)確率。2015年的ImageNet競(jìng)賽上,一個(gè)深度學(xué)習(xí)系統(tǒng)以96%的準(zhǔn)確率第一次超過(guò)了人類(lèi)(人類(lèi)平均有95%的準(zhǔn)確率)。
計(jì)算機(jī)認(rèn)圖的能力,已經(jīng)超過(guò)了人。尤其圖像和語(yǔ)音等復(fù)雜應(yīng)用,深度學(xué)習(xí)技術(shù)取得了優(yōu)越的性能。為什么呢?其實(shí)就是思路的革新。
舉幾個(gè)腦洞大開(kāi)的例子。
先說(shuō)計(jì)算機(jī)認(rèn)貓。我們通常能用很多屬性描述一個(gè)事物。其中有些屬性可能很關(guān)鍵,很有用,另一些屬性可能沒(méi)什么用。我們就將屬性被稱(chēng)為特征。特征辨識(shí),就是一個(gè)數(shù)據(jù)處理的過(guò)程。傳統(tǒng)算法認(rèn)貓,也是標(biāo)注各種特征去認(rèn)。就是大眼睛,有胡子,有花紋。但這種特征寫(xiě)著寫(xiě)著,有的貓和老虎就分不出來(lái),狗和貓也分不出來(lái)。這種方法叫——人制定規(guī)則,機(jī)器學(xué)習(xí)這種規(guī)則。
深度學(xué)習(xí)方法怎么辦呢?直接給你百萬(wàn)張圖片,說(shuō)這里有貓,再給你上百萬(wàn)張圖,說(shuō)這里沒(méi)貓。然后再訓(xùn)練一個(gè)深度網(wǎng)絡(luò),通過(guò)深度學(xué)習(xí)自己去學(xué)貓的特征,計(jì)算機(jī)就知道了,誰(shuí)是貓。
第二個(gè)例子是谷歌訓(xùn)練機(jī)械手抓取。
傳統(tǒng)方法肯定是看到那里有個(gè)機(jī)械手,就寫(xiě)好函數(shù),move到xyz標(biāo)注的空間點(diǎn),利用程序?qū)崿F(xiàn)一次抓取。而谷歌現(xiàn)在用機(jī)器人訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò),幫助機(jī)器人根據(jù)攝像頭輸入和電機(jī)命令,預(yù)測(cè)抓取的結(jié)果。簡(jiǎn)單說(shuō),就是訓(xùn)練機(jī)器人的手眼協(xié)調(diào)。機(jī)器人會(huì)觀測(cè)自己的機(jī)械臂,實(shí)時(shí)糾正抓取運(yùn)動(dòng)。所有行為都從學(xué)習(xí)中自然浮現(xiàn),而不是依靠傳統(tǒng)的系統(tǒng)程序。
為了加快學(xué)習(xí)進(jìn)程,谷歌用了14個(gè)機(jī)械手同時(shí)工作,在將近3000小時(shí)的訓(xùn)練,相當(dāng)于80萬(wàn)次抓取嘗試后,開(kāi)始看到智能反應(yīng)行為的出現(xiàn)。據(jù)公開(kāi)資料,沒(méi)有訓(xùn)練的機(jī)械手,前30次抓取失敗率為34%,而訓(xùn)練后,失敗率降低到18%。這就是一個(gè)自我學(xué)習(xí)的過(guò)程。
有人問(wèn)了,深度學(xué)習(xí),能學(xué)習(xí)寫(xiě)文章嗎?
來(lái)看這個(gè)例子。斯坦福大學(xué)的計(jì)算機(jī)博士andrej kapathy曾用托爾斯泰的小說(shuō)《戰(zhàn)爭(zhēng)與和平》來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。每訓(xùn)練100個(gè)回合,就叫它寫(xiě)文章。100個(gè)回合后,機(jī)器知道要空格,但仍然有亂碼。500個(gè)回合后,能正確拼寫(xiě)一些短單詞。1200個(gè)回合后,有標(biāo)點(diǎn)符號(hào)和長(zhǎng)單詞。2000個(gè)回合后,已經(jīng)可以正確拼寫(xiě)更復(fù)雜的語(yǔ)句。
整個(gè)演化過(guò)程是個(gè)什么情況呢?以前我們寫(xiě)文章,只要告訴主謂賓。而以上過(guò)程,完全沒(méi)人告訴機(jī)器語(yǔ)法規(guī)則。甚至,連標(biāo)點(diǎn)和字母區(qū)別都不用告訴它。不告訴機(jī)器任何程序。只是不停將原始數(shù)據(jù)進(jìn)行訓(xùn)練,一層一層訓(xùn)練,最后輸出結(jié)果——就是一個(gè)個(gè)看得懂的語(yǔ)句。一切看起來(lái)都很有趣。人工智能與深度學(xué)習(xí)的美妙之處,也正在于此。
我還去硅谷看過(guò)一家公司——完全顛覆以往的算法,利用深度學(xué)習(xí)實(shí)現(xiàn)圖像深度信息的采集。
眾所周知,市面上已經(jīng)有無(wú)人機(jī),可實(shí)現(xiàn)人的跟蹤。它的方法是什么呢?一個(gè)人,在圖像系統(tǒng)里,一堆色塊的組合。通過(guò)人工的方式進(jìn)行特征選擇,比如顏色特征,梯度特征。拿簡(jiǎn)單的顏色特征舉例:比如你穿著綠色衣服,突然走進(jìn)草叢,就可能跟丟?;颍摿思路?,幾個(gè)人很相近,也容易跟丟。此時(shí),若想在這個(gè)基礎(chǔ)上繼續(xù)優(yōu)化,將顏色特征進(jìn)行某些調(diào)整,是非常困難的。而且調(diào)整后,還會(huì)存在對(duì)過(guò)去某些狀況不適用的問(wèn)題。
總之,這樣的算法需要不停迭代,迭代又會(huì)影響前面的效果。而硅谷這個(gè)團(tuán)隊(duì),利用深度學(xué)習(xí),把所有人腦袋做出來(lái),只區(qū)分好前景和背景。區(qū)分之后,背景全部用數(shù)學(xué)方式隨意填充,再不斷生產(chǎn)大量背景數(shù)據(jù),進(jìn)行自學(xué)習(xí)。只要把前景學(xué)習(xí)出來(lái)就行。
據(jù)我所知,很多傳統(tǒng)方法,還在采用雙目視覺(jué)。用計(jì)算機(jī)去做局部匹配,再根據(jù)雙目測(cè)出的兩個(gè)匹配的差距,去推算空間另一個(gè)點(diǎn)和它的三角位置,從而判斷離你多遠(yuǎn)??上攵疃葘W(xué)習(xí)的出現(xiàn),使得很多公司辛苦積累的軟件算法直接作廢了。“算法為核心競(jìng)爭(zhēng)力”,正在轉(zhuǎn)變?yōu)椋?ldquo;數(shù)據(jù)為核心競(jìng)爭(zhēng)力”。技術(shù)人員必須進(jìn)入新的起跑線(xiàn)。
最后再舉個(gè)例子。
大家都做過(guò)胃鏡。尤其胃痛,很痛苦。腸胃鏡要分開(kāi)做,而且小腸看不見(jiàn)。有一家公司出了一種膠囊攝像頭。吃進(jìn)去后,在你的消化道,每5秒拍一幅圖,連續(xù)攝像,此后再排出膠囊。所有關(guān)于腸道胃部的問(wèn)題,全部完整記錄。但醫(yī)生光把那個(gè)圖看完,就需要五個(gè)小時(shí)。原本的機(jī)器主動(dòng)檢測(cè)漏檢率高,要醫(yī)生復(fù)查。后來(lái),他們采用深度學(xué)習(xí)。采集8000多例圖片數(shù)據(jù)灌進(jìn)去,用機(jī)器不斷學(xué),不僅提高診斷精確率,減少了醫(yī)生的漏診,以及對(duì)稀缺好醫(yī)生的經(jīng)驗(yàn)依賴(lài)。只需要靠機(jī)器自己去學(xué)習(xí)規(guī)則。
深度學(xué)習(xí)算法,可以幫助醫(yī)生作出決策。
了解完深度學(xué)習(xí),接著思考一個(gè)問(wèn)題——20世紀(jì)70年代末80年代初,個(gè)人電腦突飛猛進(jìn)時(shí),人工智能的商業(yè)化卻步履維艱。喬布斯曾這樣定義個(gè)人計(jì)算機(jī)的價(jià)值——“它是我們思維的自行車(chē)”。那么,今天的人工智能呢?深度學(xué)習(xí)呢?它給我們真正帶來(lái)的東西是什么?未來(lái),對(duì)行業(yè)和社會(huì)有什么影響?中國(guó)公司的機(jī)會(huì)在哪?
看了“學(xué)習(xí)的勵(lì)志文章”的人還看了: