VR基礎(chǔ)理論的新進(jìn)展——全景視頻視覺(jué)注意力模型的構(gòu)建

導(dǎo)語(yǔ)：

2018年7月16日，人工智能與機(jī)器學(xué)習(xí)領(lǐng)域頂級(jí)期刊《模式分析與機(jī)器智能匯刊(IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI))》（影響因子：9.455）接收了我校電子信息工程學(xué)院王祖林教授、徐邁副教授的最新研究成果“強(qiáng)化學(xué)習(xí)在預(yù)測(cè)視覺(jué)注意力范圍中的模型構(gòu)建”。學(xué)生作者為2014級(jí)本科生宋宇航、王建伊、樵明朗，教師作者為徐邁和王祖林，北京航空航天大學(xué)為論文唯一單位。

制定標(biāo)準(zhǔn)時(shí)的思維火花

徐邁副教授的團(tuán)隊(duì)一直在參與VR(虛擬現(xiàn)實(shí)技術(shù))標(biāo)準(zhǔn)的制定，到目前已經(jīng)參與了四次VR標(biāo)準(zhǔn)制定的會(huì)議，多項(xiàng)提案被國(guó)際標(biāo)準(zhǔn)采納。VR中最重要的一環(huán)就是全景視頻的處理與傳輸。由多個(gè)不同角度的鏡頭來(lái)錄制全景信息，并對(duì)畫(huà)面進(jìn)行拼接，形成能顯示空間所有方位的視覺(jué)圖像，這樣的視頻就是全景視頻。全景視頻需要非常高的分辨率支持（如8K甚至16K），才能實(shí)現(xiàn)用戶(hù)身臨其境的沉浸式體驗(yàn)。

圖1.全景視頻

在參與VR相關(guān)標(biāo)準(zhǔn)制定的過(guò)程中，徐邁副教授認(rèn)為，當(dāng)前的標(biāo)準(zhǔn)主要分為兩個(gè)方向---球面映射和用戶(hù)體驗(yàn)，因此，一直帶領(lǐng)團(tuán)隊(duì)致力于提升用戶(hù)體驗(yàn)和解決相關(guān)實(shí)際問(wèn)題。高分辨率視頻的處理需要消耗大量的計(jì)算資源和通信帶寬，而由于VR頭盔自身計(jì)算能力和無(wú)線(xiàn)傳輸帶寬的限制。如何在保持視頻質(zhì)量不變的前提下，減少處理和傳輸?shù)臄?shù)據(jù)規(guī)模，提升用戶(hù)體驗(yàn)，就成為了當(dāng)前全景視頻及VR研究的重點(diǎn)問(wèn)題。針對(duì)這一問(wèn)題，徐邁副教授帶領(lǐng)他的團(tuán)隊(duì)展開(kāi)了探索。

實(shí)驗(yàn)室強(qiáng)項(xiàng)與問(wèn)題結(jié)合

人眼有數(shù)十億的視錐視桿細(xì)胞，相當(dāng)于十多億像素高清相機(jī)，而眼部與大腦之間的神經(jīng)節(jié)細(xì)胞僅為數(shù)萬(wàn)個(gè)，相當(dāng)于數(shù)據(jù)傳輸速率只有8Mbps，這說(shuō)明說(shuō)大腦并沒(méi)有全部處理所有圖像數(shù)據(jù)，而是選擇性地處理了一些區(qū)域，而這些區(qū)域就被稱(chēng)為感知區(qū)域。根據(jù)人眼工作機(jī)理，建立全景視頻注意力模型就成為了團(tuán)隊(duì)的重要研究工作。

在觀(guān)看全景視頻的時(shí)候, 人類(lèi)通過(guò)控制頭部運(yùn)動(dòng)從而來(lái)控制視野范圍，進(jìn)而產(chǎn)生身臨其境的交互式沉浸體驗(yàn)。因此，預(yù)測(cè)頭部運(yùn)動(dòng)是構(gòu)建全景視頻注意力模型的關(guān)鍵。該論文首次建立了一個(gè)全景視頻注意力的數(shù)據(jù)庫(kù)，獲得58名被測(cè)者觀(guān)看76個(gè)全景視頻序列時(shí)的頭動(dòng)及眼動(dòng)位置。經(jīng)過(guò)四個(gè)月的數(shù)據(jù)清洗和處理，通過(guò)對(duì)頭動(dòng)數(shù)據(jù)的追蹤，形成每個(gè)視頻逐幀的熱點(diǎn)圖。最終，論文首次揭示了人類(lèi)觀(guān)看全景視頻的視覺(jué)機(jī)理。

圖2.不同算法預(yù)測(cè)結(jié)果對(duì)比

在對(duì)熱點(diǎn)圖分析后，團(tuán)隊(duì)發(fā)現(xiàn)，盡管不同的人觀(guān)看同一內(nèi)容時(shí)感知區(qū)域存在一定差異，但與視頻內(nèi)容依然具有強(qiáng)關(guān)聯(lián)性?；诖?，可構(gòu)建預(yù)測(cè)模型，預(yù)測(cè)人類(lèi)觀(guān)看全景視頻時(shí)的頭動(dòng)位置。而這種模型的構(gòu)建機(jī)理，又與強(qiáng)化學(xué)習(xí)方法有本質(zhì)上的聯(lián)系。因此，他們提出一種新型的深度強(qiáng)化學(xué)習(xí)(DRL)模型，構(gòu)建智能體模擬人類(lèi)行為，預(yù)測(cè)人類(lèi)觀(guān)看全景視頻時(shí)的頭部運(yùn)動(dòng)。首次提出全景視頻視場(chǎng)熱點(diǎn)圖的生成方法，可離線(xiàn)地預(yù)測(cè)全景視頻視場(chǎng)，并提出一種全景視頻的在線(xiàn)生成方法，可在線(xiàn)實(shí)時(shí)預(yù)測(cè)全景視頻視場(chǎng)。最后，實(shí)驗(yàn)結(jié)果驗(yàn)證：與傳統(tǒng)算法相比，論文提出的算法所預(yù)測(cè)視野熱點(diǎn)圖，CC（和真實(shí)結(jié)果的相關(guān)系數(shù)）精度提升超過(guò)20%。論文對(duì)全景視頻的壓縮，渲染，感知，有著廣泛的應(yīng)用場(chǎng)景，為提升全景視頻用戶(hù)體驗(yàn)提供了理論支撐。

圖3.全景視頻視覺(jué)注意力模型示意圖

圖4.對(duì)中心偏見(jiàn)取不同標(biāo)準(zhǔn)差和權(quán)重系數(shù)下預(yù)測(cè)結(jié)果的CC值擬合曲面

本科生科研與不懈探索

此項(xiàng)研究成果完全由三個(gè)本科生在徐邁副教授的指導(dǎo)下完成，徐邁副教授對(duì)他們有很高的評(píng)價(jià)：“本科生有較強(qiáng)的研究積極性，同時(shí)在齊心協(xié)力合作上表現(xiàn)很好，雖然學(xué)位上比起其他的投稿人欠缺一些說(shuō)服力，但最終結(jié)果還是好的?！比煌瑢W(xué)表示，在他們的首次科研過(guò)程中遇到了很多困難，徐邁副教授非常認(rèn)真負(fù)責(zé)的幫助他們解決遇到的每一個(gè)問(wèn)題，經(jīng)常凌晨一兩點(diǎn)發(fā)出的問(wèn)題都能迅速的收到詳盡的回復(fù)和解答；每周都要集體開(kāi)會(huì)討論進(jìn)度、所遇到的問(wèn)題和接下來(lái)的方向；在論文第一次收到大修意見(jiàn)后，徐邁副教授鼓勵(lì)大家繼續(xù)努力，并且和他們一起對(duì)論文進(jìn)行了數(shù)次修改，才最終被接收。

結(jié)語(yǔ)：

新思路與新視角會(huì)帶來(lái)新的變革，使用不同于傳統(tǒng)信號(hào)處理的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等多種方法，徐邁副教授和他的團(tuán)隊(duì)從新的角度完成了對(duì)全景視頻視覺(jué)注意力模型的構(gòu)建，實(shí)現(xiàn)了全景視頻所需計(jì)算資源與通信帶寬的壓縮，為VR大規(guī)模實(shí)用化提供了非常有利的條件，有很廣的應(yīng)用價(jià)值。接下來(lái)他們將會(huì)繼續(xù)將研究深入下去，逐步解決在實(shí)際應(yīng)用中所遇到的問(wèn)題，進(jìn)一步改善全景視頻的用戶(hù)體驗(yàn)。除了在全景視頻領(lǐng)域進(jìn)行了開(kāi)創(chuàng)性的研究外，徐邁副教授和他的研究團(tuán)隊(duì)也在對(duì)包括圖像、普通視頻的各方面進(jìn)行著提升用戶(hù)體驗(yàn)的研究。相信在未來(lái)，他們能繼續(xù)在這個(gè)領(lǐng)域取得更多的突破性成果。

該論文得到了國(guó)家自然科學(xué)基金及北航青年拔尖人才基金的支持。

論文鏈接：https://ieeexplore.ieee.org/document/8418756/

項(xiàng)目鏈接: https://github.com/YuhangSong/DHP

文案：曾嘉琪、曹嘉輝

采訪(fǎng)：曾嘉琪

設(shè)計(jì)：楊彥卓

編審：北航門(mén)戶(hù)網(wǎng)站總編總監(jiān)工作室

投稿：[email protected]

上一條：國(guó)家網(wǎng)絡(luò)安全宣傳周：網(wǎng)絡(luò)安全為人民,網(wǎng)絡(luò)安全靠人民

下一條：我校表彰第二屆“立德樹(shù)人獎(jiǎng)”獲獎(jiǎng)教師

菲律宾百家乐-豪博娱乐城-揭秘博彩网首存送彩金

2018年

VR基礎(chǔ)理論的新進(jìn)展——全景視頻視覺(jué)注意力模型的構(gòu)建