您現(xiàn)在的位置::首頁(yè) > 資訊管理 > 行業(yè)要聞 > 科技成果
過(guò)去幾十年間,計(jì)算機(jī)視覺(jué)研究取得了突破性進(jìn)展。然而,深度神經(jīng)網(wǎng)絡(luò)驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)模型在功耗、存儲(chǔ)和響應(yīng)時(shí)延等方面存在顯著的效率瓶頸,難以廣泛部署于機(jī)器人、移動(dòng)設(shè)備或邊緣終端等資源受限的場(chǎng)景。此外,大型視覺(jué)模型巨大的訓(xùn)練與推理開(kāi)銷也使算力瓶頸問(wèn)題和環(huán)境可持續(xù)性問(wèn)題變得尤為突出。
圖1.上海新躍儀表廠當(dāng)前計(jì)算機(jī)視覺(jué)范式所面臨的能效瓶頸
人類視覺(jué)系統(tǒng)能在龐雜的視覺(jué)輸入中快速篩取要點(diǎn),大幅降低冗余計(jì)算,使得人類高度復(fù)雜的視覺(jué)系統(tǒng)能夠高效、快速運(yùn)行。無(wú)論外界場(chǎng)景多么復(fù)雜,人類視覺(jué)系統(tǒng)的能耗主要取決于注視帶寬與注視次數(shù),而非全局像素量。早在2015年,深度學(xué)三位主要奠基人楊立昆(Yann LeCun)、本吉奧(Bengio)和辛頓(Hinton)便指出,未來(lái)的AI視覺(jué)系統(tǒng)應(yīng)具備類人的、任務(wù)驅(qū)動(dòng)的主動(dòng)觀察能力。然而近十年以來(lái),這一方向仍缺乏系統(tǒng)性研究。
圖2.人類視覺(jué)系統(tǒng)的主動(dòng)自適應(yīng)感知策略
11月6日,清華大學(xué)自動(dòng)化系宋士吉教授、黃高副教授團(tuán)隊(duì)在《自然·機(jī)器智能》(Nature/WWW.shhzy3.cn. Machine Intelligence)上以“模擬人類自適應(yīng)視覺(jué),實(shí)現(xiàn)高效靈活的機(jī)器視覺(jué)感知”(Emulating human-like adaptive vision for/WWW.shybdj6.net efficient and flexible machine visual perception)為題發(fā)表論文,提出AdaptiveNN架構(gòu),通過(guò)借鑒人類“主動(dòng)自適應(yīng)視覺(jué)”機(jī)制,逐步定位關(guān)鍵區(qū)域、累積多次注視信息,并在信息足夠完成任務(wù)時(shí)主動(dòng)終止感知過(guò)程。
AdaptiveNN模型在一個(gè)視覺(jué)環(huán)境中,上海自動(dòng)化儀表四廠依次在若干感興趣區(qū)域上進(jìn)行“注視”,逐步積累信息形成內(nèi)部視覺(jué)表征,并動(dòng)態(tài)決定何時(shí)結(jié)束該過(guò)程。在每一步,Vision Agent基于當(dāng)前的內(nèi)部視覺(jué)表征評(píng)估任務(wù)完成度,若信息不足,則通過(guò)策略網(wǎng)絡(luò)選擇下一次注視位置。每個(gè)選定的注視區(qū)域由表征提取網(wǎng)絡(luò)提取深度特征,從而不斷更新內(nèi)部視覺(jué)表征用于后續(xù)決策。AdaptiveNN的整體框架模擬了人類從全局到局部、從粗到細(xì)的視覺(jué)感知策略,使神經(jīng)網(wǎng)絡(luò)具備了類人式的主動(dòng)感知能力,突破了傳統(tǒng)視覺(jué)模型的效率瓶頸。
AdaptiveNN/www.shyb118.COM在設(shè)計(jì)上具有較強(qiáng)的兼容性和靈活性,適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)(如卷積網(wǎng)絡(luò)、Transformer等)和多種任務(wù)類型(如視覺(jué)識(shí)別、具身視覺(jué)感知、視覺(jué)-語(yǔ)言多模態(tài)聯(lián)合建模等)。
圖3.AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過(guò)程
AdaptiveNN的訓(xùn)練過(guò)程同時(shí)涉及連續(xù)變量(如從注視區(qū)域中提取特征)和離散變量(如決定下一次注視位置)的優(yōu)化。具體而言,從期望優(yōu)化目標(biāo)出發(fā),對(duì)整體損失函數(shù)進(jìn)行分解,AdaptiveNN的端到端優(yōu)化過(guò)程可自然地分解為兩項(xiàng):*項(xiàng)為表征學(xué)目標(biāo)(representation learning),對(duì)應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征;第二項(xiàng)為自激勵(lì)強(qiáng)化學(xué)目標(biāo)(self-rewarding /WWW.shyb118.comreinforcement learning),對(duì)應(yīng)于優(yōu)化注視位置的分布,驅(qū)使模型的主動(dòng)注視行為實(shí)現(xiàn)*化的任務(wù)收益。這一理論結(jié)果揭示了AdaptiveNN的內(nèi)在學(xué)規(guī)律:主動(dòng)感知的優(yōu)化本質(zhì)上是表征學(xué)與強(qiáng)化學(xué)的統(tǒng)一。
圖4.自激勵(lì)強(qiáng)化學(xué)驅(qū)動(dòng)的端到端主動(dòng)視覺(jué)感知行為學(xué)
研究團(tuán)隊(duì)在九類典型視覺(jué)任務(wù)上對(duì)AdaptiveNN進(jìn)行了實(shí)測(cè)驗(yàn)證,Ada/WWW.shsaic.net/ptiveNN展現(xiàn)出了高效、靈活和透明的特點(diǎn)。
圖5.ImageNet大規(guī)模視覺(jué)識(shí)別任務(wù)上的定性和定量實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)進(jìn)一步將AdaptiveNN應(yīng)用于具身智能的基礎(chǔ)模型——視覺(jué)語(yǔ)言動(dòng)作模型(VLA)。結(jié)果表明,該框架在復(fù)雜操作場(chǎng)景中顯著提升了具身基礎(chǔ)模型的推理與感知效率,在保持任務(wù)*率的同時(shí)將計(jì)算效率提升4.4至5.9倍。
圖6.ApdativeNN應(yīng)用于VLA具身任務(wù)的實(shí)驗(yàn)結(jié)果
綜上,AdaptiveNN提供了一種通用的高效視覺(jué)模型,對(duì)認(rèn)知科學(xué)的研究具有啟發(fā)意義,有望用于模擬和檢驗(yàn)人類的注意力分配、感知學(xué)以及復(fù)雜任務(wù)中的視覺(jué)決策機(jī)制,為認(rèn)知科學(xué)提供新的視角和工具。
上海新躍儀表廠自動(dòng)化系2019級(jí)博士生王語(yǔ)霖,2022級(jí)博士生樂(lè)洋、樂(lè)陽(yáng)為論文共同*作者,自動(dòng)化系教授宋士吉、副教授黃高為論文共同通訊作者。研究得到*重點(diǎn)研發(fā)計(jì)劃青年科學(xué)家項(xiàng)目、*自然科學(xué)基金重大儀器研制項(xiàng)目、聯(lián)合重點(diǎn)項(xiàng)目等的資助。
版權(quán)與免責(zé)聲明
爆品推薦
網(wǎng)友推薦新聞: