我是Leo,依圖科技聯(lián)合創(chuàng)始人,UCLA統(tǒng)計學(xué)博士,從事人工智能研究15年,曾在深度學(xué)習(xí)奠基者Yann LeCun教授實驗室擔(dān)任研究員,2010年獲得PASCAL圖像目標(biāo)檢測比賽冠軍,2017年獲得美國國家標(biāo)準(zhǔn)與技術(shù)研究院NIST和美國國家情報高級研究計劃局IARPA人臉識別全球冠軍。
最近,大量關(guān)于人工智能的研究報告,投資人、創(chuàng)業(yè)者、學(xué)者熱議AI的趨勢和對社會各行業(yè)的影響,不乏對AI技術(shù)和產(chǎn)業(yè)發(fā)展的誤解,很容易有誤導(dǎo)性。宏觀上,議題大體分為三個方面:AI是多大的事?誰是真正的AI player?AI的場景在哪里?
從科學(xué)研究者和創(chuàng)業(yè)者的雙視角談?wù)勎业闹饕^點:AI的邊界,只有領(lǐng)軍人物才可能準(zhǔn)確把握和拓展;頂尖企業(yè),因為遠(yuǎn)見造就勢能;AI的未來,無與倫比,沒有歷史可以借鑒,也沒有權(quán)威可以預(yù)測。
“S”曲線看AI格局
我對AI發(fā)展歷史和預(yù)測,用上圖的”S”形曲線建模(Sigmoid函數(shù),恰好也是用來刻畫神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的activation function)。橫軸表示時間,縱軸表示機器智能水平。曲線上的點表示某個時間點的全球最高智能水平。2013年開始是新AI時代(深度學(xué)習(xí)),2013年前的機器智能發(fā)展水平相較于近5年的發(fā)展基本可以忽略不計。紅線代表悲觀派(AI退潮、AI泡沫等),2017年之后很快出現(xiàn)發(fā)展停頓;藍(lán)線代表樂觀派,2017年之后還有快速發(fā)展。值得強調(diào)的是,藍(lán)紅兩條曲線對AI歷史有相同認(rèn)識,但市場上很多論調(diào)或研究報告看到的是另一條曲線,很大概率調(diào)研看到的AI水平離最高水平有很大差距。分析AI格局的不同立場,可以通過解讀S曲線的三個方面:
1、AI過去的發(fā)展以及AI未來發(fā)展程度和速率的預(yù)測
2、AI發(fā)展水平和商業(yè)場景的關(guān)系
3、各個player的所在位置和差距
具體來說,我們先從AI過去5年的發(fā)展情況談起,以人臉識別作為例子,把人臉從N個人中找到的概率在95%,縱軸就是可識別的規(guī)模(N的大小)。
技術(shù)不是趨同,而是會放大差距、解鎖場景
2017年人臉識別最高水平可識別規(guī)模在20億人,大概比2016年可識別千萬提高兩百倍,比2015年提高了數(shù)萬倍。在2017年全球最權(quán)威的人臉識別測試中(NIST),我們比第二名Vocord團(tuán)隊,在千萬比對測試上領(lǐng)先2%(Vocord在另一測試集比騰訊優(yōu)圖高10%),這個就是大家常說的技術(shù)水平趨同,高一兩個百分點沒有意義(引申出難兌現(xiàn)成競爭價值)。這個誤區(qū)需要從兩個方面解讀:
第一方面,算法在億級、十億級比對的領(lǐng)先會快速放大到5%,20%。這是一般的算法性能曲線的規(guī)律。除了可識別規(guī)模上的重大差異,還體現(xiàn)在難(hard)的數(shù)據(jù)上的識別率差異。從算法經(jīng)驗來說,黑人、女性、小孩、大年齡跨度、遮擋等是較難識別的群體和類別。在這些子類上,不同算法之間的性能差異會更大。
超大規(guī)模下的評測本身就是一個不簡單的學(xué)術(shù)命題,還需要大量的數(shù)據(jù)支撐,真正能觀測到20億數(shù)據(jù)下性能的人少之又少,例如美國很難建立20億級的測試集。這不是訪談一些人臉識別研究從業(yè)者就能獲得,這是誤區(qū)的第一個來源。
第二方面,算法提高,擴大可識別規(guī)模,就會解鎖更多商業(yè)應(yīng)用場景。百萬、千萬識別規(guī)模對應(yīng)的是身份認(rèn)證場景,遠(yuǎn)程認(rèn)證、手機解鎖都屬于此類。“技術(shù)無差異”的論調(diào)在這個場景下倒是可以成立。但在對億級和十億比對有剛性需求的場景下,幾乎就是行與不行的問題。“非關(guān)鍵性應(yīng)用”的論斷誤導(dǎo)性極強。
假定每路人流為萬,要在萬路視頻中,搜索性能相當(dāng)于要求算法百億、千億規(guī)模上的可識別率。這比其他場景的性能要求再提高千倍。以不同算法為基礎(chǔ)的產(chǎn)品端體驗差異就被同比例放大。
總結(jié)來說,99%識別率的算法和99.99%的算法,區(qū)別在于可解鎖的應(yīng)用場景。這些新的場景解鎖,是最先鋒的算法團(tuán)隊和垂直領(lǐng)域的開拓者共同努力,也不是訪談一般的相關(guān)從業(yè)者就能感知變革的最前沿,這是誤區(qū)的另一個來源。
技術(shù)水平的三個層次VIE:Vision(遠(yuǎn)見),Insight(洞見),Execution(執(zhí)行)
技術(shù)實力該如何評估比較呢?最常見的是測試比賽的冠軍、實際案例、招投標(biāo)PK成績、論文等。這些或許能區(qū)分是不是前10名的AI團(tuán)隊,但很難區(qū)分最好的團(tuán)隊。我對技術(shù)的三層解構(gòu):Vision,遠(yuǎn)見,或戰(zhàn)略格局、技術(shù)趨勢判斷;Insight,洞見,算法本質(zhì)和客觀世界分布規(guī)律的理解;Execution,執(zhí)行,算法實現(xiàn)、數(shù)據(jù)獲取、工程計算平臺等。具體來說:
最基礎(chǔ)的Execution就是算法做到什么水平,特別是大體框架已知后,能快速實現(xiàn),包括基礎(chǔ)算法、場景數(shù)據(jù)、計算實驗平臺、產(chǎn)品應(yīng)用等。比如,AlphaGo出來后,多快能復(fù)現(xiàn);語音識別多快能追上全球最好的結(jié)果。頂級的Execution,不是開源的算法平臺可以彌補。特定領(lǐng)域的專家能幫助團(tuán)隊快速提高對應(yīng)領(lǐng)域Execution的水平。這個層面,中國團(tuán)隊?wèi)?yīng)該是世界一流的。Google如果是世界第一的話,不論是下棋、人臉識別、語音識別等,中國的水平應(yīng)該不會比 Facebook、Microsoft、Apple、Amazon等差,甚至某些方面稍強些。大部人比較技術(shù),基本就在這個層次。但更重要的、威力更大的是上面的兩個層次。
再往上一層是Insight,考察對技術(shù)的深刻認(rèn)知。包括算法模型的數(shù)學(xué)解釋、客觀世界分布規(guī)律的獨到見解。Insight指導(dǎo)如何使用數(shù)據(jù)、計算力(就是指導(dǎo)如何使用算法甚至創(chuàng)新算法)。這層決定能不能比Google做得更好,或者能保持同一發(fā)展節(jié)奏。假定擁有深度學(xué)習(xí)算法框架、海量數(shù)據(jù)在同樣水平,但是大家對算法性能調(diào)教還有巨大差距。以人臉識別為例,我們使用了2億張人臉圖片(幾十億張圖片的子集)訓(xùn)練,有效模型參數(shù)達(dá)到10億量級,利用對人臉這個對象的屬性先驗的合理假設(shè),包括光照、年齡、種族、運動模糊、成像解析度等,模型定制、數(shù)據(jù)如何組合、計算如何加速在性能調(diào)優(yōu)和模型學(xué)習(xí)效率上(就是上面提到的Execution)都有重大差異。這就是為什么擁有算法、算力、數(shù)據(jù)條件的互聯(lián)網(wǎng)巨頭也不見得能在單項AI任務(wù)上能做到全球前三。
Vision:預(yù)測發(fā)展趨勢、定義未來方向,想象對生活、生產(chǎn)的影響。這除了需要對技術(shù)的深刻理解,還需要對技術(shù)的創(chuàng)新能力,以及技術(shù)商業(yè)價值的想象力、創(chuàng)造力。技術(shù)的遠(yuǎn)見,回答AI的場景在哪以及多快到來。
強的Execution,Insight肯定不錯,但可能毫無Vision;最強的Vision,Insight肯定一流,但Execution可能很差。VIE都很強的團(tuán)隊全球極其稀缺。用深度學(xué)習(xí)領(lǐng)域最強的兩位大師Hinton和LeCun談一下我的感受。在2010年前,學(xué)術(shù)界不少人已經(jīng)在談大數(shù)據(jù)對機器學(xué)習(xí)的重要性,Hinton團(tuán)隊2012年在LeCun發(fā)明的算法基礎(chǔ)上,用了百萬的訓(xùn)練數(shù)據(jù),在ImageNet上取得世界級的突破性進(jìn)展;同一時期,LeCun團(tuán)隊只用了不到十萬的數(shù)據(jù)。但是在Hinton公布ImageNet結(jié)果的頭兩個月,LeCun團(tuán)隊沒法重現(xiàn)Hinton用自己算法的實驗結(jié)果。在Hinton公布算法實現(xiàn)和技巧后,LeCun團(tuán)隊的結(jié)果就輕松超過了Hinton團(tuán)隊的水平。
兩位大師都擁有超一流的Vision,在深度學(xué)習(xí)方向上堅持三十年。但是他們Vision的差別以及以此帶來的信念差別使得Insight的差別(是否追求更深刻見解)在當(dāng)時可能是巨大的,對深度學(xué)習(xí)算法發(fā)揮的突破條件包括訓(xùn)練數(shù)據(jù)規(guī)模、模型正則化實現(xiàn)、activation function選取、GPU計算等的理解還有顯著差異。這些在當(dāng)時,原理還不清楚時,可能完全是憑著Hinton(包括那一期超強的博士生)的直覺。這種Insight的差距,使得LeCun團(tuán)隊已知所用算法框架和目標(biāo)性能但未知關(guān)鍵實現(xiàn)時,也不能重現(xiàn)結(jié)果。但之后,LeCun團(tuán)隊擁有更好的Execution(大規(guī)模系統(tǒng)性調(diào)優(yōu)),能在短時間內(nèi)算法性能超過。這種最牛高手間信念的微妙差異,到底來源于什么,值得深思。
為什么Vision很重要?就像雷達(dá),對別人來說是盲區(qū),Vision讓你看見,看見所以相信,相信所以平靜。不僅以此獲得戰(zhàn)略優(yōu)勢,還有定力,排除誘惑和干擾。
Vision如何辨別呢?非常難,甚至幾乎不可能,只能由同樣有Vision的人欣賞。就像taste難以打分一樣,只能由同樣有taste的人欣賞。Vision帶你看到的,就是99%的專家同行都看不到、不相信的。所以,偉大往往和誤解相伴。LeCun在深度學(xué)習(xí)被實際測試數(shù)據(jù)驗證前,也很難被美國主流學(xué)術(shù)圈認(rèn)可,甚至發(fā)表頂級會議都不是簡單的事,可如今,幾乎所有的論文都要貼上深度學(xué)習(xí)的標(biāo)簽。
但是判斷過濾沒有Vision的團(tuán)隊,倒是有跡可循。一般來說,無論學(xué)術(shù)還是創(chuàng)業(yè),偉大的突破,都需要多年前后一致的投入和深耕。隔年換領(lǐng)域或者什么模式都在做的(垂直、平臺等),歸類為沒有Vision應(yīng)該沒什么問題。
有了VIE的拆解,我認(rèn)為,AI新時代的壁壘只有人,最頂級的人。領(lǐng)軍人物對AI技術(shù)和商業(yè)邊界的未來分布判斷無法替代,決定AI發(fā)展基本要素(算法、算力、數(shù)據(jù)和場景)的所需程度和權(quán)重。擁有頂級Execution和Insight的團(tuán)隊,最知道對算法有效的數(shù)據(jù)在哪、如何標(biāo)注使用。擁有頂級Insight和Vision的團(tuán)隊,最早知道技術(shù)的突破帶來最具商業(yè)價值的場景在哪以及何時到來。
AI未來:沒有歷史可以借鑒,也沒有權(quán)威能夠預(yù)測
談了AI發(fā)展,技術(shù)如何解構(gòu),談?wù)凙I的未來。基于深度學(xué)習(xí)的AI新時代,大大不同于30年歷史上的AI,這是被各種應(yīng)用、在實際場景、大規(guī)模數(shù)據(jù)驗證過性能的技術(shù),而不只是理論或概念。盡管過去5年的發(fā)展,對得起人們的期待,今天,還有不少人擔(dān)心新AI像過去一樣很快會退潮。但我認(rèn)為,AI新時代只是開始。我從新AI的三個特性簡要闡述:
1、AI是全新的維度。這是最重要的,決定AI到底是多大的事。
AI技術(shù)如何創(chuàng)新發(fā)展,如何變革商業(yè),沒有歷史可以借鑒,也沒有權(quán)威能準(zhǔn)確判斷。AI不僅僅是一個技術(shù),AI突破還能突破所有技術(shù)包括人機交互、搜索、機器人、芯片計算、醫(yī)學(xué)、制藥等科學(xué)領(lǐng)域的幾乎所有學(xué)科。
2、AI的發(fā)展速度快、跳躍性強
從S曲線中,可以看到過去5年,AI的發(fā)展及其迅猛,單門類(人臉識別)算法有了萬倍的增長。但我對未來更加憧憬,即S曲線中2018年之后的曲線有多陡。AI發(fā)展帶來的多維度技術(shù)和各場景深度結(jié)合、疊加會帶來更有沖擊力的體驗。從多技術(shù)維度來說,從視覺,到聽覺、語義理解、運動控制會在之后幾年都會快速突破;和芯片結(jié)合,端智能滲透到與用戶的最后30公分的交互體驗,從Internet Of Things向Internet Of Intelligence跨越,讓智能無處不在。
3、AI領(lǐng)先一步,會帶來巨大勢能
在S曲線中,處在不同位置的團(tuán)隊,優(yōu)勢不只是橫軸時間的差距,而是技術(shù)領(lǐng)先帶來的累積效應(yīng)(曲線積分)以及更多元(多條AI技術(shù)曲線)AI技術(shù)的疊加,這使得AI能有跨行業(yè)的摧毀性。不僅僅決定某個行業(yè),第一名和第二名的差距或位置關(guān)系,還能使得AI領(lǐng)先的行業(yè)的領(lǐng)導(dǎo)者撬動AI意識落后的行業(yè)。
AI未來,無與倫比;因為看見,所以相信。
您可以復(fù)制這個鏈接分享給其他人:http://m.keozl.com/node/354