點(diǎn)擊上方【車云】,關(guān)注并查看更多往期內(nèi)容。
車云按:2017年6月21日-22日,由中國安全產(chǎn)業(yè)協(xié)會(huì)、TIAA車載信息服務(wù)產(chǎn)業(yè)應(yīng)用聯(lián)盟與車云網(wǎng)共同主辦的2017年中國安全產(chǎn)業(yè)峰會(huì)暨首屆交通安全產(chǎn)業(yè)論壇在北京召開。本文系地平線機(jī)器人技術(shù)創(chuàng)始人&CEO余凱在大會(huì)上的主題演講,當(dāng)中對(duì)面向未來的自動(dòng)駕駛技術(shù)展開了討論,并通過實(shí)例說明了深度學(xué)習(xí)將對(duì)未來自動(dòng)駕駛技術(shù)帶來巨大的變革。
▲地平線機(jī)器人技術(shù)創(chuàng)始人&CEO 余凱
以下為演講實(shí)錄:
感謝能有這么好的機(jī)會(huì)跟業(yè)界的同行來匯報(bào)跟交流一下我們?cè)谄嚰夹g(shù)方面做的一些工作。我們公司主要是在深度結(jié)合新型人工智能的處理器去做自動(dòng)駕駛的解決方案,所以我介紹一下這方面的工作。
從“端到云”地平線在構(gòu)建自動(dòng)駕駛汽車大腦系統(tǒng)
地平線機(jī)器人,實(shí)際上我們不造機(jī)器人,我們?cè)斓目梢哉f是機(jī)器人的大腦,毫無疑問,如果我們想面向未來,如果能夠影響人類生活,最大規(guī)模影響每個(gè)人從出生醫(yī)院,產(chǎn)房里面一出來到家里面,然后整個(gè)人生的每一個(gè)階段。深刻的影響你生活的機(jī)器人是什么呢?我覺得沒有比汽車更重要的了。所以如果去做面向機(jī)器人技術(shù)的話,我覺得毫無疑問是自動(dòng)駕駛。
地平線現(xiàn)在總部在北京,在中關(guān)村,我們同時(shí)在南京有研發(fā)中心,最近在上海的安亭成立的我們自動(dòng)駕駛的研發(fā)中心?,F(xiàn)在我們有200個(gè)工程師,其實(shí)各種員工加起來,包括實(shí)習(xí)生將近有400個(gè)人,在軟件、算法、硬件、處理器的架構(gòu)設(shè)計(jì)。
所謂面向未來的自動(dòng)駕駛,一方面在車這一端,我們要部署先進(jìn)的人工智能的算法,從感知到定位到環(huán)境建模到?jīng)Q策規(guī)劃到控制。這些算法的復(fù)雜性,用今天我們大家通常用的計(jì)算平臺(tái),比如說CPU是不能去完成的。我們可以看到,除了人工智能的算法在過去幾年突飛猛進(jìn)的發(fā)展,同時(shí)平行去發(fā)展的就看到了從Intel到Nvdia再到Google都在投入做人工智能處理器的研發(fā),在中國當(dāng)然地平線是作為最早的致力于人工智能處理器變革的一家公司。所以它一定要在車上面去部署這種算法,它需要功耗足夠的低,車不能發(fā)熱,它要足夠的安全。另一方面,這還是一個(gè)大數(shù)據(jù)的系統(tǒng),因?yàn)檐嚥粩嗟脑诟兄獢?shù)據(jù),把新的數(shù)據(jù)傳送到云端,在云端進(jìn)行并行大規(guī)模的訓(xùn)練,然后就構(gòu)建新的模型再重新部署到車的本地端。所以它也是在云端的一個(gè)大數(shù)據(jù)計(jì)算,我們構(gòu)建“端到云”的這種汽車大腦系統(tǒng),從軟件到硬件。
深度學(xué)習(xí)的關(guān)鍵是讓機(jī)器自主學(xué)習(xí)
談到深度學(xué)習(xí),毫無疑問在過去五六年時(shí)間里像旋風(fēng)一樣,從互聯(lián)網(wǎng)公司影響到傳統(tǒng)汽車的行業(yè)。從比較學(xué)院的這種曲高和寡的研究,到街頭巷尾到國家領(lǐng)導(dǎo)人到每一個(gè)老百姓都在談?wù)摰腁lphaGo下圍棋,背后主要都是深度學(xué)習(xí)的進(jìn)步。
深度學(xué)習(xí)實(shí)際上是機(jī)器學(xué)習(xí)的一個(gè)分支,所謂機(jī)器學(xué)習(xí)是構(gòu)造一種算法,像人的大腦一樣,能夠不斷的從數(shù)據(jù)中、從經(jīng)驗(yàn)中學(xué)習(xí)變得越來越聰明。80年代末機(jī)器學(xué)習(xí)成為人工智能的主流,傳統(tǒng)的機(jī)器學(xué)習(xí)通常是一個(gè)一個(gè)的步驟,一開始從數(shù)據(jù)的感知預(yù)處理再到特征的提取、特征的變化,最后到預(yù)測(cè)跟識(shí)別,這是典型的機(jī)器學(xué)習(xí)。
過去最后一個(gè)步驟是特征提取完了以后怎么做感知。而進(jìn)入到深度學(xué)習(xí),它是把整個(gè)系統(tǒng)作為一個(gè)框架來看,之前特征的預(yù)處理與提取實(shí)際上也非常的重要,但它對(duì)計(jì)算的要求更高,對(duì)最后的效果更加的關(guān)鍵。過去這些研究都被忽略了,深度學(xué)習(xí)的影響把中間所有的步驟都變成自主學(xué)習(xí)的一個(gè)機(jī)器,從感知的數(shù)據(jù)出發(fā),直到最后輸出的結(jié)果全部都是用大數(shù)據(jù)的訓(xùn)練。
這些放在五年前,無論是在中國還是在美國,聽起來都是天方夜譚,今年已經(jīng)成為現(xiàn)實(shí)。目前最成功的這些計(jì)算機(jī)識(shí)別,語音識(shí)別,包括以前我在百度工作的像互聯(lián)網(wǎng)的廣告、搜索,還有今天下圍棋這種決策的系統(tǒng),實(shí)際上最好的系統(tǒng)都是基于深度學(xué)習(xí)的。
在這里面我分享兩個(gè)例子,我認(rèn)為是在深度學(xué)習(xí)的應(yīng)用取得了一個(gè)非常重大的,并對(duì)實(shí)際的產(chǎn)品對(duì)業(yè)務(wù)產(chǎn)生重大影響的兩個(gè)實(shí)例。
第一個(gè)實(shí)例是當(dāng)年在百度的時(shí)候,我們做的一個(gè)項(xiàng)目,這個(gè)項(xiàng)目就是說希望用深度學(xué)習(xí)去提升搜索引擎的相關(guān)性。百度與Google其實(shí)都做了類似這樣的項(xiàng)目,當(dāng)然百度比Google早一年做。我們?cè)谙胍环矫嬖趺从么髷?shù)據(jù)訓(xùn)練,通常用人工去標(biāo)注數(shù)據(jù),我們能夠標(biāo)大概30萬個(gè)樣本,實(shí)際上可能就已經(jīng)很難了。因?yàn)闃?biāo)注的成本非常貴,時(shí)間也非常的耗時(shí)。
能不能用用戶自然的數(shù)據(jù)來訓(xùn)練,而不需要人工標(biāo)注?實(shí)際上,我們是可以去用這樣數(shù)據(jù)的。比如用戶輸入一個(gè)地址,我們關(guān)注到這個(gè)用戶點(diǎn)擊的地址,另外一個(gè)沒有點(diǎn)擊。實(shí)際上就是點(diǎn)擊的網(wǎng)頁比另外一個(gè)沒有點(diǎn)擊的對(duì)搜索更相關(guān)的關(guān)鍵詞,我們就可以利用三元組,搜索詞,還有點(diǎn)擊的網(wǎng)頁跟沒有點(diǎn)擊的網(wǎng)頁,三元組成組構(gòu)成訓(xùn)練的樣本。大家可以看到訓(xùn)練樣本實(shí)際上你沒有任何的限制,你可以搜索無窮的獲得訓(xùn)練樣本,我們可以訓(xùn)練1個(gè)億參數(shù)的深度神經(jīng)網(wǎng)絡(luò),這個(gè)是在整個(gè)搜索引擎的歷史上面對(duì)所引擎的相關(guān)性提升最大的技術(shù)。
另外一個(gè)例子,這個(gè)例子叫AlphaGo,AlphaGo實(shí)際上也有很多非常非常讓人印象深刻的新技術(shù)突破。但它這里面有一個(gè)核心的思想,比如說我們最近的AlphaGo 2.0,實(shí)際上它沒有用任何的標(biāo)注數(shù)據(jù),它也沒有用人工的標(biāo)注數(shù)據(jù)。它實(shí)際上通過虛擬的程序之間的左右互搏,然后不斷的去提升它的合力。這種情況的話,也是突破了標(biāo)注數(shù)據(jù)對(duì)訓(xùn)練強(qiáng)大的一個(gè)神經(jīng)網(wǎng)絡(luò)帶來的限制,它可以自主的去學(xué)習(xí)。
所以剛才講的這些事情聽起來跟自動(dòng)駕駛沒有關(guān)系,但是我從這兩個(gè)事例里面獲得一些啟發(fā)。首先第一點(diǎn),在第一個(gè)系統(tǒng)里面,用深度神經(jīng)網(wǎng)絡(luò)來做排序,這個(gè)里面核心的思想是說,與其讓人工來標(biāo)注數(shù)據(jù),那我們是不是也可以讓它自主的去用戶自然數(shù)據(jù)里面去學(xué)習(xí)?
第二個(gè)例子是下圍棋。下圍棋是通過自然的數(shù)據(jù),利用系統(tǒng)虛擬地去做仿真,從仿真里面去照出虛擬的數(shù)據(jù)然后再訓(xùn)練這個(gè)模型。這兩個(gè)思想放在一起,它的一個(gè)核心的共性是:我們不是在構(gòu)造一個(gè)虛擬的人工系統(tǒng),而是自主學(xué)習(xí)人工系統(tǒng),這點(diǎn)是我今天要講的主要話題。未來的自動(dòng)駕駛的汽車,它實(shí)際上是自主學(xué)習(xí)的,而不是被訓(xùn)練的,這點(diǎn)非常重要。這里面一個(gè)核心的要素,就是說在訓(xùn)練、學(xué)習(xí)的時(shí)候,它是從自然的數(shù)據(jù)里面去學(xué)習(xí),而不是一個(gè)被動(dòng)的去輸入標(biāo)注的數(shù)據(jù)。從軟件到硬件再到數(shù)據(jù),整合構(gòu)建擁有深度學(xué)習(xí)能力的自動(dòng)駕駛系統(tǒng)
其實(shí)剛才我已經(jīng)講了我今天報(bào)告主要的要點(diǎn)。地平線認(rèn)為構(gòu)建未來的自動(dòng)駕駛系統(tǒng),如果單純做軟件或單純做硬件都是不行的,單純?cè)诒镜囟硕辉谠贫藰?gòu)建大數(shù)據(jù)的系統(tǒng)也是不夠的。所以我們要做的叫全棧式技術(shù)的開發(fā),從軟件到硬件、從本地到云端。
首先軟件層面,我們需要克服很多挑戰(zhàn),我認(rèn)為有三個(gè)大挑戰(zhàn)。第一個(gè)什么讓系統(tǒng)從黑箱變成一個(gè)白箱系統(tǒng)。第二個(gè)是說怎么樣讓這個(gè)系統(tǒng)能夠不斷的自主學(xué)習(xí)。第三個(gè)是說怎么樣讓這個(gè)軟件對(duì)硬件友好,因?yàn)橐欢ㄒ凸?、高效率、低延遲,這里面軟件跟硬件的配合非常重要。
怎么去構(gòu)建一個(gè)可解釋的、人可以理解的深度神經(jīng)網(wǎng)絡(luò)呢?我們需要去回顧到整個(gè)人工智能的歷史。在80年代末的時(shí)候,神經(jīng)網(wǎng)絡(luò)被提出來熱了一陣子卻又被冷掉。在90年代基于因果推理的理論導(dǎo)出,實(shí)際上是主流,到2011年的時(shí)候衰落,因?yàn)樯疃葘W(xué)習(xí)又起來。這個(gè)歷史是循環(huán)往復(fù)的發(fā)展,但是今天看起來Bayes網(wǎng)絡(luò)所謂的科技實(shí)際上可以跟深度網(wǎng)絡(luò)結(jié)合,它同時(shí)是白箱子系統(tǒng),這個(gè)是地平線正在做的事情。
這樣的一個(gè)白箱子系統(tǒng),可以理解為是一個(gè)非常大的Bayes網(wǎng)絡(luò),實(shí)際上是用一個(gè)小的、子的深度神經(jīng)網(wǎng)絡(luò)來表示的。這樣模塊跟模塊之間的接口是清晰可定義的,但實(shí)際整個(gè)的系統(tǒng)它可以端到端的學(xué)習(xí)。同時(shí)在這樣一個(gè)框架里面,這個(gè)系統(tǒng)是一個(gè)完全的不斷自主學(xué)習(xí),白天晚上每一秒鐘不斷從路上的經(jīng)驗(yàn)去學(xué)習(xí)。
另外還有一個(gè)好處,因?yàn)樗涌谥g是清晰定義的,所以它能夠非常容易的去整合基于規(guī)則的系統(tǒng),基于人工規(guī)則的系統(tǒng)。另外一點(diǎn),就是怎么樣去構(gòu)建一個(gè)單個(gè)的深度神經(jīng)網(wǎng)絡(luò),使得它是可解釋的。
最終關(guān)乎到?jīng)Q策,如果決策實(shí)際上就要去用到所謂的增強(qiáng)學(xué)習(xí)的這么一個(gè)框架,在這樣一個(gè)框架,車實(shí)際上不僅僅是從每一個(gè)司機(jī)自然的行為里面去學(xué)習(xí),同時(shí)它也從仿真的系統(tǒng)里面去學(xué)習(xí)。這個(gè)其實(shí)也反映就是我剛才講的兩個(gè)觀點(diǎn),從自然數(shù)據(jù)去學(xué)習(xí),通過仿真來學(xué)習(xí),跳出標(biāo)注樣本所帶來的局限。
另外就是關(guān)于硬件,硬件我們關(guān)注兩個(gè)方面,第一個(gè)方面就是系統(tǒng)硬件,包括編譯器跟運(yùn)行時(shí)的軟件,然后來提升軟件的運(yùn)行。同時(shí)我們需要從感知到定位到三維建模到預(yù)測(cè)到推理,實(shí)際上我們要根據(jù)軟件本身的構(gòu)架適應(yīng)性重新的去設(shè)計(jì)它處理器的架構(gòu)。這個(gè)實(shí)際上當(dāng)前在Google的TPU,包括地平線最近在做的BPU,根據(jù)軟件的硬件重構(gòu)。
我們可以看到在人工智能時(shí)代,實(shí)際上整個(gè)軟件應(yīng)用所帶動(dòng)處理器的變革其實(shí)正在發(fā)生。我們可以看到在深度神經(jīng)網(wǎng)絡(luò)計(jì)算里面,我們傳統(tǒng)的ABG跟GPU表現(xiàn)了不同的能力,我們可以看到其實(shí)在一年半的時(shí)間里面從一個(gè)排名大概是排不到前幾年的半導(dǎo)體公司到今天成為世界第二大的半導(dǎo)體公司,成為一個(gè)一千億美金的公司,就是因?yàn)檎麄€(gè)軟件應(yīng)用的驅(qū)動(dòng)帶來處理器架構(gòu)的重構(gòu),所帶來一個(gè)新的機(jī)會(huì)。
這里面其實(shí)也有一些相當(dāng)?shù)臋C(jī)會(huì),因?yàn)檐浖乃惴ú粩嘌葸M(jìn),如何使你處理器架構(gòu)靈活。最靈活的方式其實(shí)從電路上面不斷改變電路的方式,F(xiàn)PGA實(shí)際上在自動(dòng)駕駛領(lǐng)域有它相當(dāng)?shù)纳?。?dāng)然,最終一旦軟件算法本身能夠固定下來,那專用集成電路一定是未來的方向,就是所謂的叫ASIC。Google的TPU和地平線的BPU都是在往這個(gè)方向走,可以看到在TPU它有最大的計(jì)算能力,但是每瓦的計(jì)算力實(shí)際上是比較低的。ASIC它可以做的最好,但是同時(shí)每瓦功耗計(jì)算能力能夠比現(xiàn)在的GPU提高30倍到50倍,這個(gè)是現(xiàn)在產(chǎn)業(yè)競(jìng)爭(zhēng)的焦點(diǎn)。地平線在按照從感知到不斷的去增強(qiáng)決策能力的計(jì)算。
這個(gè)是我們跟Intel在一起合作做的在處理器方面,比如說我們利用低功耗處理器設(shè)計(jì)可以做實(shí)時(shí),對(duì)每一個(gè)象素級(jí)的感知,在非常復(fù)雜路面上面對(duì)每一個(gè)象素,每一個(gè)行人,不僅是把它大概的框出來,然后每一個(gè)細(xì)節(jié)的邊界都能夠做得非常準(zhǔn)確的這種處理。然后我們?cè)谙乱淮幚砥骷軜?gòu),其實(shí)還會(huì)從二維的感知到三維語義的感知去發(fā)展。我想最終通過硬件跟軟件的聯(lián)合設(shè)計(jì),實(shí)際上使得傳感器能夠充分實(shí)時(shí)的計(jì)算,然后去理解在周圍它所發(fā)生的不光是靜態(tài)的信息,相對(duì)位置的信息,包括動(dòng)態(tài)下一個(gè)5中行人跟車輛往哪個(gè)方向去走的信息。最終去實(shí)現(xiàn)在效率,在延遲,在準(zhǔn)確率這方面的話,一個(gè)最優(yōu)的結(jié)果,這就是整個(gè)產(chǎn)業(yè)界現(xiàn)在往前去發(fā)展的。
最后,我想談一下數(shù)據(jù),數(shù)據(jù)量的增長在未來的自動(dòng)駕駛時(shí)代是一個(gè)很大的挑戰(zhàn)。從現(xiàn)在開始,實(shí)際上每一個(gè)手機(jī)它有多個(gè)的傳感器,數(shù)目越來越多,每一個(gè)汽車未來傳感器的數(shù)目也會(huì)越來越多。所以傳感器的增長它一定是高于人口的增長。這樣的話,數(shù)據(jù)的增長跟傳感器的增長是線性的,計(jì)算的增長跟數(shù)據(jù)的增長是非線性的,因?yàn)樵絹碓綇?fù)雜的算法會(huì)被發(fā)明,會(huì)被提出來。所以這就給計(jì)算帶來了巨大的挑戰(zhàn)。
給大家舉一個(gè)實(shí)際的例子,目前在學(xué)術(shù)界做計(jì)算機(jī)視覺,最大的數(shù)據(jù)集差不多是100萬的圖像的樣本,但是一個(gè)自動(dòng)駕駛汽車一天收集的樣本就是600萬的高清自動(dòng)圖像。1000臺(tái)這樣的車,在一天所收集的數(shù)據(jù),它相當(dāng)于整個(gè)百度的搜索引擎所檢索的整個(gè)互聯(lián)網(wǎng)圖片的數(shù)目。所以一天1000輛自動(dòng)駕駛的汽車,它所搜集的數(shù)據(jù)就是這么大的一個(gè)量。那么我們?cè)趺慈?yīng)對(duì)這樣的一個(gè)計(jì)算?其實(shí)從這個(gè)計(jì)算另外還有一方面的挑戰(zhàn)。
你在真實(shí)道路里面搜集的數(shù)據(jù),比如說突破千萬或者是億的其實(shí)也很難了。但是還有很多的不能被充分暴露出來,所以通過這種仿真讓各種情況充分暴露出來,使得上百億虛擬的公里數(shù)在你的數(shù)據(jù)中心不斷的去測(cè)試,這個(gè)也是自動(dòng)駕駛的一個(gè)必經(jīng)之路。
最后,總結(jié)一下,第一個(gè)觀點(diǎn),深度學(xué)習(xí)在未來一定會(huì)導(dǎo)致自動(dòng)駕駛的革命,就像我們看到很多領(lǐng)域,無論是說計(jì)算機(jī)視覺,語音識(shí)別,還是下圍棋,還是很多的人工智能機(jī)器人的應(yīng)用,都被深度學(xué)習(xí)革命。第二個(gè)觀點(diǎn),未來的話自動(dòng)駕駛的汽車一定是活生生的在不斷自主學(xué)習(xí)的汽車,而不是說在線下你去訓(xùn)練它,訓(xùn)練完了以后再放到路上面不再自我更新。第三個(gè)觀點(diǎn),就是深度學(xué)習(xí)有很多的好處,但是我們一定要應(yīng)對(duì)它的挑戰(zhàn),就是它現(xiàn)在是一個(gè)相對(duì)黑箱的系統(tǒng)。第四個(gè)觀點(diǎn),我認(rèn)為非常重要的就是說,我們一定要去走所謂的像蘋果所信仰的深度軟硬件去整合,使得整個(gè)系統(tǒng)的效率跟系統(tǒng)的安全性、可靠性得到最優(yōu)。只做軟件或者只做硬件是不夠的。
好的,我的分享就是這些,謝謝大家。
文章評(píng)論
時(shí)間|熱度