12月11日,依圖發(fā)布了依圖短語(yǔ)音聽寫API、和微軟Azure推出依圖語(yǔ)音開放平臺(tái)。
其實(shí)早在2016年,當(dāng)計(jì)算機(jī)視覺公司剛開始吸引投資人注意時(shí),語(yǔ)音識(shí)別就開始規(guī)模化場(chǎng)景落地。現(xiàn)如今,百度、騰訊、京東、小米紛紛發(fā)布智能音箱,各種手機(jī)搭載語(yǔ)音交互,智能翻譯工具、智能客服等語(yǔ)音類產(chǎn)品層出不窮。
那么,相比同類產(chǎn)品,依圖語(yǔ)音技術(shù)的比較優(yōu)勢(shì)和市場(chǎng)空間會(huì)在哪里?在未來(lái)產(chǎn)品化落地上,依圖會(huì)有怎樣的規(guī)劃?圍繞這些問題,36氪獨(dú)家專訪了依圖科技首席創(chuàng)新官,前Google Research Scientist呂昊博士。
依圖科技首席創(chuàng)新官呂昊博士
確實(shí),這個(gè)時(shí)間點(diǎn)進(jìn)入語(yǔ)音行業(yè)挑戰(zhàn)重重,一則先發(fā)優(yōu)勢(shì)不再,二則市場(chǎng)擁擠,科大訊飛、BAT大廠紛紛入局,從技術(shù)上升到平臺(tái)生態(tài),市場(chǎng)空間看似余地不多。
對(duì)此,呂昊表示:依圖團(tuán)隊(duì)對(duì)國(guó)內(nèi)現(xiàn)有的語(yǔ)音識(shí)別技術(shù)都做了調(diào)研,發(fā)現(xiàn)在不少場(chǎng)景下,語(yǔ)音識(shí)別效果并不理想,例如通話過(guò)程中的聲音轉(zhuǎn)寫準(zhǔn)確率低、遠(yuǎn)距離的聲音采集識(shí)別效果差、語(yǔ)料數(shù)據(jù)積累不足等。因此,依圖會(huì)從這些可優(yōu)化空間入手,對(duì)模型算法進(jìn)行打磨,提升識(shí)別率,降低字錯(cuò)率。
在語(yǔ)音識(shí)別領(lǐng)域,15%的字錯(cuò)率是一條紅線,超過(guò)則基本不具備可讀性,而低于3%則是可以被認(rèn)為具備類人的語(yǔ)音識(shí)別能力。然而,在實(shí)際說(shuō)話過(guò)程中,人的語(yǔ)速、語(yǔ)氣、口音、語(yǔ)態(tài)等都會(huì)影響識(shí)別準(zhǔn)確度。此外,不同于英文,中文復(fù)雜的語(yǔ)言元素,以及同音不同意等問題為語(yǔ)音識(shí)別帶來(lái)了更大的挑戰(zhàn)。那么依圖如何應(yīng)對(duì)呢?
呂昊告訴36氪:當(dāng)前業(yè)內(nèi)缺乏系統(tǒng)性的標(biāo)準(zhǔn)測(cè)試和測(cè)試集,對(duì)于語(yǔ)音識(shí)別缺乏體驗(yàn)和比較的工具,為提升識(shí)別準(zhǔn)確率,依圖團(tuán)隊(duì)搜集了大量真實(shí)對(duì)話數(shù)據(jù),以及專業(yè)類、生活類的細(xì)分語(yǔ)料庫(kù),基于此,依圖提出了自己多維度、多場(chǎng)景的測(cè)試數(shù)據(jù)集,由此來(lái)對(duì)模型算法進(jìn)行訓(xùn)練和測(cè)試。
據(jù)悉,在基于全球最大中文開源數(shù)據(jù)庫(kù)的AISHELL-2的測(cè)試中,依圖短語(yǔ)音聽寫的字錯(cuò)率為3.71%,官方稱領(lǐng)先原業(yè)內(nèi)領(lǐng)先者科大訊飛約20%。在若干近場(chǎng)、混響、噪聲等公開測(cè)試集上,依圖平均字錯(cuò)率 6.39%,領(lǐng)先訊飛 11%。加入電話、口音、語(yǔ)音節(jié)目、遠(yuǎn)場(chǎng)演講等依圖內(nèi)部暫無(wú)法公開的測(cè)試集后(全部測(cè)試集共 50小時(shí)、60萬(wàn)漢字),依圖平均字錯(cuò)率 8.27%,訊飛是9.30%,依圖仍然領(lǐng)先訊飛 11% 左右。
基于不同數(shù)據(jù)測(cè)試集上,依圖語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率表現(xiàn)
其實(shí),如果想實(shí)現(xiàn)真正意義上的語(yǔ)音交互,語(yǔ)音只是一部分,更重要的則是對(duì)語(yǔ)義的理解。如果我們把語(yǔ)音技術(shù)比作人的嘴巴和耳朵,用于表達(dá)和獲取;那么語(yǔ)義理解則是人的大腦,能夠幫助信息處理和解析。在語(yǔ)義理解方面,依圖同樣在進(jìn)行技術(shù)積累。
呂昊表示:雖然此次是從語(yǔ)音切入,但是團(tuán)隊(duì)一直是語(yǔ)音、語(yǔ)義兩線并行。2017年時(shí),依圖就曾將自然語(yǔ)言處理(NLP)技術(shù)用于AI+醫(yī)療解決方案,結(jié)合自建的臨床中文知識(shí)圖譜,對(duì)醫(yī)學(xué)文本等多模態(tài)數(shù)據(jù)進(jìn)行解析和信息提取。今年,依圖的論文更入選NLP頂會(huì)EMNLP 2018,針對(duì)計(jì)算機(jī)語(yǔ)言學(xué)核心問題之一的指代理解提出全新數(shù)據(jù)集PreCo并對(duì)外開放。
此前,在視覺領(lǐng)域,依圖已經(jīng)在智慧城市、醫(yī)療、金融、零售等領(lǐng)域有了產(chǎn)品化、商業(yè)化積累。對(duì)于是否會(huì)將語(yǔ)音技術(shù)遷移于這些領(lǐng)域,呂昊回應(yīng):這一階段仍舊以技術(shù)積累為主,依圖在開放平臺(tái)上提供了自有的API和模型算法,一方面可以經(jīng)由市場(chǎng)驗(yàn)證算法質(zhì)量,另一方面可以由此接近不同行業(yè)和場(chǎng)景。
據(jù)官方信息,依圖與微軟聯(lián)合發(fā)布的語(yǔ)音開放平臺(tái)基于Azure Cloud,將依圖的語(yǔ)音識(shí)別技術(shù)能力開放給廣泛第三方應(yīng)用開發(fā)者使用。
在未來(lái),依圖計(jì)劃陸續(xù)開放長(zhǎng)語(yǔ)音轉(zhuǎn)寫API、實(shí)時(shí)語(yǔ)音轉(zhuǎn)寫API等。正如呂昊所說(shuō):希望為第三方應(yīng)用開發(fā)者在語(yǔ)音領(lǐng)域提供多一個(gè)語(yǔ)音技術(shù)選擇。
筆者認(rèn)為:結(jié)合自有的CV技術(shù)積累,依圖或許可在多模態(tài)情感識(shí)別和計(jì)算領(lǐng)域發(fā)力,融合視覺、語(yǔ)音等多重?cái)?shù)據(jù),全方位提升機(jī)器的感知能力。在商業(yè)化層面,雖然當(dāng)下的依圖語(yǔ)音技術(shù)開放平臺(tái)仍舊以技術(shù)積累為重心,但依托CV積累的的B端用戶,為企業(yè)級(jí)客戶提供語(yǔ)音解決方案只是時(shí)間早晚問題。
————
您可以復(fù)制這個(gè)鏈接分享給其他人:http://m.keozl.com/node/414