導(dǎo)語(yǔ):
2018年7月16日,人工智能與機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊《模式分析與機(jī)器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI))》(影響因子:9.455)接收了我校電子信息工程學(xué)院王祖林教授、徐邁副教授的最新研究成果“強(qiáng)化學(xué)習(xí)在預(yù)測(cè)視覺(jué)注意力范圍中的模型構(gòu)建”。學(xué)生作者為2014級(jí)本科生宋宇航、王建伊、樵明朗,教師作者為徐邁和王祖林,北京航空航天大學(xué)為論文唯一單位。
制定標(biāo)準(zhǔn)時(shí)的思維火花
徐邁副教授的團(tuán)隊(duì)一直在參與VR(虛擬現(xiàn)實(shí)技術(shù))標(biāo)準(zhǔn)的制定,到目前已經(jīng)參與了四次VR標(biāo)準(zhǔn)制定的會(huì)議,多項(xiàng)提案被國(guó)際標(biāo)準(zhǔn)采納。VR中最重要的一環(huán)就是全景視頻的處理與傳輸。由多個(gè)不同角度的鏡頭來(lái)錄制全景信息,并對(duì)畫(huà)面進(jìn)行拼接,形成能顯示空間所有方位的視覺(jué)圖像,這樣的視頻就是全景視頻。全景視頻需要非常高的分辨率支持(如8K甚至16K),才能實(shí)現(xiàn)用戶(hù)身臨其境的沉浸式體驗(yàn)。

圖1.全景視頻
在參與VR相關(guān)標(biāo)準(zhǔn)制定的過(guò)程中,徐邁副教授認(rèn)為,當(dāng)前的標(biāo)準(zhǔn)主要分為兩個(gè)方向---球面映射和用戶(hù)體驗(yàn),因此,一直帶領(lǐng)團(tuán)隊(duì)致力于提升用戶(hù)體驗(yàn)和解決相關(guān)實(shí)際問(wèn)題。高分辨率視頻的處理需要消耗大量的計(jì)算資源和通信帶寬,而由于VR頭盔自身計(jì)算能力和無(wú)線(xiàn)傳輸帶寬的限制。如何在保持視頻質(zhì)量不變的前提下,減少處理和傳輸?shù)臄?shù)據(jù)規(guī)模,提升用戶(hù)體驗(yàn),就成為了當(dāng)前全景視頻及VR研究的重點(diǎn)問(wèn)題。針對(duì)這一問(wèn)題,徐邁副教授帶領(lǐng)他的團(tuán)隊(duì)展開(kāi)了探索。
實(shí)驗(yàn)室強(qiáng)項(xiàng)與問(wèn)題結(jié)合
人眼有數(shù)十億的視錐視桿細(xì)胞,相當(dāng)于十多億像素高清相機(jī),而眼部與大腦之間的神經(jīng)節(jié)細(xì)胞僅為數(shù)萬(wàn)個(gè),相當(dāng)于數(shù)據(jù)傳輸速率只有8Mbps,這說(shuō)明說(shuō)大腦并沒(méi)有全部處理所有圖像數(shù)據(jù),而是選擇性地處理了一些區(qū)域,而這些區(qū)域就被稱(chēng)為感知區(qū)域。根據(jù)人眼工作機(jī)理,建立全景視頻注意力模型就成為了團(tuán)隊(duì)的重要研究工作。
在觀(guān)看全景視頻的時(shí)候, 人類(lèi)通過(guò)控制頭部運(yùn)動(dòng)從而來(lái)控制視野范圍,進(jìn)而產(chǎn)生身臨其境的交互式沉浸體驗(yàn)。因此,預(yù)測(cè)頭部運(yùn)動(dòng)是構(gòu)建全景視頻注意力模型的關(guān)鍵。該論文首次建立了一個(gè)全景視頻注意力的數(shù)據(jù)庫(kù),獲得58名被測(cè)者觀(guān)看76個(gè)全景視頻序列時(shí)的頭動(dòng)及眼動(dòng)位置。經(jīng)過(guò)四個(gè)月的數(shù)據(jù)清洗和處理,通過(guò)對(duì)頭動(dòng)數(shù)據(jù)的追蹤,形成每個(gè)視頻逐幀的熱點(diǎn)圖。最終,論文首次揭示了人類(lèi)觀(guān)看全景視頻的視覺(jué)機(jī)理。

圖2.不同算法預(yù)測(cè)結(jié)果對(duì)比
在對(duì)熱點(diǎn)圖分析后,團(tuán)隊(duì)發(fā)現(xiàn),盡管不同的人觀(guān)看同一內(nèi)容時(shí)感知區(qū)域存在一定差異,但與視頻內(nèi)容依然具有強(qiáng)關(guān)聯(lián)性?;诖?,可構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)人類(lèi)觀(guān)看全景視頻時(shí)的頭動(dòng)位置。而這種模型的構(gòu)建機(jī)理,又與強(qiáng)化學(xué)習(xí)方法有本質(zhì)上的聯(lián)系。因此,他們提出一種新型的深度強(qiáng)化學(xué)習(xí)(DRL)模型,構(gòu)建智能體模擬人類(lèi)行為,預(yù)測(cè)人類(lèi)觀(guān)看全景視頻時(shí)的頭部運(yùn)動(dòng)。首次提出全景視頻視場(chǎng)熱點(diǎn)圖的生成方法,可離線(xiàn)地預(yù)測(cè)全景視頻視場(chǎng),并提出一種全景視頻的在線(xiàn)生成方法,可在線(xiàn)實(shí)時(shí)預(yù)測(cè)全景視頻視場(chǎng)。最后,實(shí)驗(yàn)結(jié)果驗(yàn)證:與傳統(tǒng)算法相比,論文提出的算法所預(yù)測(cè)視野熱點(diǎn)圖,CC(和真實(shí)結(jié)果的相關(guān)系數(shù))精度提升超過(guò)20%。論文對(duì)全景視頻的壓縮,渲染,感知,有著廣泛的應(yīng)用場(chǎng)景,為提升全景視頻用戶(hù)體驗(yàn)提供了理論支撐。

圖3.全景視頻視覺(jué)注意力模型示意圖

圖4.對(duì)中心偏見(jiàn)取不同標(biāo)準(zhǔn)差和權(quán)重系數(shù)下預(yù)測(cè)結(jié)果的CC值擬合曲面
本科生科研與不懈探索
此項(xiàng)研究成果完全由三個(gè)本科生在徐邁副教授的指導(dǎo)下完成,徐邁副教授對(duì)他們有很高的評(píng)價(jià):“本科生有較強(qiáng)的研究積極性,同時(shí)在齊心協(xié)力合作上表現(xiàn)很好,雖然學(xué)位上比起其他的投稿人欠缺一些說(shuō)服力,但最終結(jié)果還是好的?!比煌瑢W(xué)表示,在他們的首次科研過(guò)程中遇到了很多困難,徐邁副教授非常認(rèn)真負(fù)責(zé)的幫助他們解決遇到的每一個(gè)問(wèn)題,經(jīng)常凌晨一兩點(diǎn)發(fā)出的問(wèn)題都能迅速的收到詳盡的回復(fù)和解答;每周都要集體開(kāi)會(huì)討論進(jìn)度、所遇到的問(wèn)題和接下來(lái)的方向;在論文第一次收到大修意見(jiàn)后,徐邁副教授鼓勵(lì)大家繼續(xù)努力,并且和他們一起對(duì)論文進(jìn)行了數(shù)次修改,才最終被接收。
結(jié)語(yǔ):
新思路與新視角會(huì)帶來(lái)新的變革,使用不同于傳統(tǒng)信號(hào)處理的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等多種方法,徐邁副教授和他的團(tuán)隊(duì)從新的角度完成了對(duì)全景視頻視覺(jué)注意力模型的構(gòu)建,實(shí)現(xiàn)了全景視頻所需計(jì)算資源與通信帶寬的壓縮,為VR大規(guī)模實(shí)用化提供了非常有利的條件,有很廣的應(yīng)用價(jià)值。接下來(lái)他們將會(huì)繼續(xù)將研究深入下去,逐步解決在實(shí)際應(yīng)用中所遇到的問(wèn)題,進(jìn)一步改善全景視頻的用戶(hù)體驗(yàn)。除了在全景視頻領(lǐng)域進(jìn)行了開(kāi)創(chuàng)性的研究外,徐邁副教授和他的研究團(tuán)隊(duì)也在對(duì)包括圖像、普通視頻的各方面進(jìn)行著提升用戶(hù)體驗(yàn)的研究。相信在未來(lái),他們能繼續(xù)在這個(gè)領(lǐng)域取得更多的突破性成果。
該論文得到了國(guó)家自然科學(xué)基金及北航青年拔尖人才基金的支持。
論文鏈接:https://ieeexplore.ieee.org/document/8418756/
項(xiàng)目鏈接: https://github.com/YuhangSong/DHP
文案:曾嘉琪、曹嘉輝
采訪(fǎng):曾嘉琪
設(shè)計(jì):楊彥卓
編審:北航門(mén)戶(hù)網(wǎng)站總編總監(jiān)工作室
投稿:[email protected]