在過(guò)去十年中,人工智能技術(shù)一直是安防行業(yè)智能化發(fā)展的核心驅(qū)動(dòng)力,為行業(yè)注入了新的活力和機(jī)遇。在深度學(xué)習(xí)的熱潮中,安防是AI應(yīng)用落地的先行者,當(dāng)下大模型時(shí)代的開(kāi)啟,安防行業(yè)再次站在了技術(shù)應(yīng)用的前沿。目前,眾多安防企業(yè)正聚焦于多模態(tài)大模型等關(guān)鍵技術(shù)的研究,致力于推動(dòng)這些技術(shù)的產(chǎn)業(yè)化應(yīng)用,助力各行各業(yè)實(shí)現(xiàn)數(shù)字化和智能化的飛躍。
中國(guó)安全防范產(chǎn)品行業(yè)協(xié)會(huì)旗下《中國(guó)安防》雜志,對(duì)依圖科技總裁段愛(ài)國(guó)進(jìn)行了深入的采訪,探討了智能安防行業(yè)中大模型的應(yīng)用實(shí)踐、現(xiàn)狀,面臨的挑戰(zhàn)以及未來(lái)的發(fā)展趨勢(shì),分享給大家。
多模態(tài)大模型落地 重塑智能安防新紀(jì)元
安防行業(yè)是應(yīng)用AI和多模態(tài)大模型的先鋒領(lǐng)域。安防從高清化走向智能化階段,即AI安防1.0。這一階段,人臉識(shí)別、人體ReID、視頻結(jié)構(gòu)化、車(chē)輛/非機(jī)動(dòng)車(chē)結(jié)構(gòu)化等技術(shù)是這個(gè)時(shí)期的重要?jiǎng)?chuàng)新成果。隨著安防技術(shù)產(chǎn)品在各個(gè)領(lǐng)域的廣泛應(yīng)用,長(zhǎng)尾算法的需求日益凸顯。傳統(tǒng)深度學(xué)習(xí)模型是基于監(jiān)督學(xué)習(xí)方法訓(xùn)練出來(lái)的,在面臨復(fù)雜場(chǎng)景時(shí)會(huì)有很多約束和限制,這導(dǎo)致了過(guò)去幾年間盡管AI安防取得了一定進(jìn)展,但在實(shí)際應(yīng)用落地效果上并未完全達(dá)到預(yù)期效果。現(xiàn)在,隨著大模型時(shí)代的到來(lái),我們進(jìn)入了AI安防2.0?;赥ransformer架構(gòu)的多模態(tài)大模型,顛覆了傳統(tǒng)安防行業(yè)的碎片化特點(diǎn),并展現(xiàn)出以下三個(gè)主要特征:
一是“會(huì)思考”。多模態(tài)大模型不再像過(guò)去一樣只是某種算法、某種工具,而是呈現(xiàn)出助手、智能體的特征,讓機(jī)器看一遍視頻,它能夠準(zhǔn)確識(shí)別視頻中的內(nèi)容,將機(jī)器看視頻的能力轉(zhuǎn)化為直觀的算法,為行業(yè)帶來(lái)革命性的變革。
二是“可對(duì)話(huà)”。人們使用多模態(tài)大模型的過(guò)程更像與另外一個(gè)人交流。用戶(hù)可以通過(guò)語(yǔ)義搜索和語(yǔ)音指令調(diào)取視頻,例如僅需簡(jiǎn)單地說(shuō)出“請(qǐng)調(diào)取有積水的點(diǎn)位視頻”,系統(tǒng)便能迅速響應(yīng),展現(xiàn)所有相關(guān)的視頻片段。這一功能極大地提升了指揮調(diào)度的效率,節(jié)省了寶貴的決策和調(diào)度時(shí)間。
三是“能進(jìn)化”。不能根據(jù)用戶(hù)和環(huán)境而進(jìn)化的智能系統(tǒng)是工具,不是真智能。真正的智能系統(tǒng)能夠根據(jù)用戶(hù)需求和環(huán)境變化進(jìn)行自我進(jìn)化。以依圖天問(wèn)大模型為例,它支持現(xiàn)場(chǎng)算法訓(xùn)練,能夠根據(jù)實(shí)際應(yīng)用需求快速迭代和優(yōu)化。一個(gè)新的算法需求可以在1分鐘內(nèi)實(shí)現(xiàn)0樣本冷啟動(dòng),1小時(shí)內(nèi)完成在線(xiàn)標(biāo)注訓(xùn)練,并在1天內(nèi)快速上線(xiàn),展現(xiàn)了前所未有的智能化和靈活性。
因此,多模態(tài)大模型使視覺(jué)和語(yǔ)言的模型歸一,統(tǒng)一了物理世界和認(rèn)知世界的底層框架,讓多模態(tài)的信息之間可以無(wú)差別表示和無(wú)縫轉(zhuǎn)換,為大模型的人機(jī)交互模式、產(chǎn)品迭代模式、服務(wù)運(yùn)營(yíng)模式提供了更多的可能性。AI 2.0走向安全生產(chǎn)、走向基于數(shù)據(jù)和算力驅(qū)動(dòng)的智慧運(yùn)營(yíng),是未來(lái)安防行業(yè)發(fā)展的方向。
數(shù)據(jù)、算法、算力的挑戰(zhàn)與解決方案
“數(shù)據(jù)、算法、算力”構(gòu)成了人工智能的三大要素,大模型在安防行業(yè)落地過(guò)程中,首先,數(shù)據(jù)是AI的基礎(chǔ),但目前大量數(shù)據(jù)沉睡在硬盤(pán)中未能得到有效利用。現(xiàn)有的視頻結(jié)構(gòu)化技術(shù)對(duì)數(shù)據(jù)的挖掘能力有限,無(wú)法滿(mǎn)足精細(xì)管理的識(shí)別需求。為了解決這個(gè)問(wèn)題,多模態(tài)大模型的引入成為了關(guān)鍵。多模態(tài)大模型能夠識(shí)別視頻中的內(nèi)容,不管是小貓大狗塑料袋,還是公園天橋菜市場(chǎng),不管是刀具橫幅行李箱,還是電瓶車(chē)帶煤氣罐,都可以精準(zhǔn)識(shí)別,從而喚醒沉睡的數(shù)據(jù),為安防領(lǐng)域帶來(lái)更豐富的信息。
其次,算法是AI的大腦,其需求本質(zhì)上來(lái)源于業(yè)務(wù)需求,而非廠商實(shí)驗(yàn)室的設(shè)想。因此,算法的開(kāi)發(fā)和應(yīng)用天然就需要與實(shí)際業(yè)務(wù)環(huán)境緊密結(jié)合。依圖天問(wèn)大模型提供了算法現(xiàn)場(chǎng)訓(xùn)練的能力,可以快速響應(yīng)精細(xì)化管理需求,一個(gè)新的算法需求可以實(shí)現(xiàn)快速上線(xiàn)。這不僅符合數(shù)據(jù)合法保護(hù)的要求,同時(shí)也滿(mǎn)足了業(yè)務(wù)對(duì)算法時(shí)效性的需求,確保算法能夠快速響應(yīng)并適應(yīng)變化。
第三,算力成本是決定 AI 大模型應(yīng)用規(guī)模的關(guān)鍵因素。當(dāng)前高昂的算力成本限制了大模型的廣泛應(yīng)用。在模型調(diào)優(yōu)上,依圖基于視頻監(jiān)控場(chǎng)景做語(yǔ)義調(diào)優(yōu),同時(shí)行業(yè)首款xPU融合架構(gòu)的服務(wù)器把低成本的內(nèi)存虛擬化為顯存統(tǒng)一尋址,從而在整體上達(dá)到了萬(wàn)倍性能提升、百倍成本下降。
綜上所述,面對(duì)大模型落地應(yīng)用過(guò)程中“數(shù)據(jù)、算法、算力”的挑戰(zhàn),多模態(tài)大模型、算法現(xiàn)場(chǎng)訓(xùn)練以及超融合架構(gòu)的軟硬件優(yōu)化是目前較為有效的解決策略。這些方案有助于推動(dòng)安防大模型的落地應(yīng)用,提高人工智能在安防領(lǐng)域的實(shí)用性和效率。
除了數(shù)據(jù)、算法、算力這三大核心要素外,大模型在場(chǎng)景落地和應(yīng)用過(guò)程中還存在一些挑戰(zhàn)和困境:一是技術(shù)與現(xiàn)有安防系統(tǒng)的兼容性問(wèn)題,需要確保新技術(shù)能夠無(wú)縫集成到現(xiàn)有的基礎(chǔ)設(shè)施中;二是用戶(hù)接受度問(wèn)題,特別是對(duì)于新興技術(shù)的適應(yīng)和信任;三是法規(guī)和標(biāo)準(zhǔn)滯后于技術(shù)發(fā)展,可能導(dǎo)致應(yīng)用上的不確定性和合規(guī)風(fēng)險(xiǎn)。還有跨領(lǐng)域技術(shù)整合的復(fù)雜性,這需要多學(xué)科知識(shí)和技術(shù)的融合;四是商業(yè)化落地難題,尤其是在高度定制化和成本控制方面,需要找到平衡點(diǎn)以實(shí)現(xiàn)可持續(xù)的商業(yè)模式。解決這些問(wèn)題需要行業(yè)內(nèi)外的共同努力,包括政策支持、行業(yè)協(xié)作、技術(shù)研發(fā)和市場(chǎng)教育等。
大模型落地應(yīng)用正迅速推進(jìn)
得益于大模型的深度內(nèi)容理解、廣泛的適應(yīng)性與場(chǎng)景泛化能力,以及更自然的人機(jī)交互體驗(yàn),智能安防領(lǐng)域的大模型落地應(yīng)用正迅速推進(jìn)。作為人工智能領(lǐng)域的資深從業(yè)者,依圖在2023年7月首個(gè)發(fā)布“天問(wèn)”多模態(tài)大模型,這一創(chuàng)新成果目前已在全國(guó)幾十個(gè)項(xiàng)目中部署實(shí)戰(zhàn),它在視頻語(yǔ)義搜索、萬(wàn)物識(shí)別、AI智能體編排以及算法零樣本冷啟動(dòng)等方面展現(xiàn)出巨大潛力。在具體場(chǎng)景中,公共安全、智慧城市建設(shè)、智慧交通、內(nèi)容審核和智慧園區(qū)、智慧應(yīng)急等方向的應(yīng)用進(jìn)展顯著,這些領(lǐng)域?qū)σ曨l分析、行為識(shí)別和實(shí)時(shí)反應(yīng)的需求不斷增長(zhǎng)。以2023年下半年西部某省份發(fā)生的烈性犬傷人事件為例,城運(yùn)中心的工作人員面臨快速生成烈性犬檢測(cè)算法并布控到城市公共區(qū)域的挑戰(zhàn)。如果采用常規(guī)深度學(xué)習(xí)的算法訓(xùn)練方法,要求數(shù)據(jù)搜集、標(biāo)注、訓(xùn)練,一個(gè)新算法的產(chǎn)生至少需要半個(gè)月,這嚴(yán)重影響了管理的時(shí)效性。而基于多模態(tài)大模型的算法訓(xùn)練方法大大簡(jiǎn)化了這一過(guò)程。預(yù)訓(xùn)練的大模型基座帶來(lái)近70%的準(zhǔn)確性,工作人員在預(yù)警處置的過(guò)程中僅需簡(jiǎn)單點(diǎn)擊預(yù)警的對(duì)錯(cuò),不到5天的時(shí)間就可以完成超過(guò)90%的算法準(zhǔn)確率?,F(xiàn)場(chǎng)生產(chǎn)新算法的能力展現(xiàn)了驚人的速度和靈活性,有效保障了公共安全。這種以用戶(hù)需求為核心,以技術(shù)創(chuàng)新為驅(qū)動(dòng)的策略,是推動(dòng)AI 2.0發(fā)展的關(guān)鍵動(dòng)力。隨著技術(shù)的不斷進(jìn)步,預(yù)計(jì)未來(lái)智能安防的大模型將在更多細(xì)分市場(chǎng)和復(fù)雜場(chǎng)景中發(fā)揮關(guān)鍵作用,特別是在需要高度個(gè)性化和動(dòng)態(tài)適應(yīng)性的場(chǎng)景中,大模型的應(yīng)用將更具潛力。
智能安防行業(yè)大模型發(fā)展前景可期
智能安防行業(yè)的大模型正處在突破性發(fā)展的前夜,其發(fā)展趨勢(shì)和前景十分廣闊。隨著大模型技術(shù)的進(jìn)一步發(fā)展,特別是多模態(tài)大模型的應(yīng)用,促使安防系統(tǒng)正從傳統(tǒng)的視覺(jué)監(jiān)控向更深層次的內(nèi)容理解、場(chǎng)景適應(yīng)性和人機(jī)交互發(fā)展。未來(lái)的智能安防將更加注重?cái)?shù)據(jù)和算力的結(jié)合,推動(dòng)傳統(tǒng)安全防范到安全生產(chǎn)管理的轉(zhuǎn)變,以及智慧運(yùn)營(yíng)的實(shí)現(xiàn)。在這樣的趨勢(shì)指引下,依圖在當(dāng)前新一輪AI浪潮下將聚焦技術(shù)創(chuàng)新和產(chǎn)品落地的深度融合,加強(qiáng)多模態(tài)大模型技術(shù)與領(lǐng)域知識(shí)深度結(jié)合的產(chǎn)品與方案,打造更懂行業(yè)、更懂客戶(hù)、更懂場(chǎng)景、更易使用的產(chǎn)品,助力“AI+”能更快地在各行業(yè)落地,拓展人工智能新疆界,開(kāi)啟視頻情境理解的新紀(jì)元!
您可以復(fù)制這個(gè)鏈接分享給其他人:http://m.keozl.com/node/929