国产性猛交xxxx免费看,亚洲一区二区高清视频,黑洞电影在线未删减完整版,日韩a在线,国产精品视频看看,懂色av影视一区二区三区 ,国产亚洲成人精品

科技進展
您當前的位置 :

協(xié)同語音手勢視頻生成,是從音頻驅(qū)動的靜態(tài)圖像中生成生動的語音視頻。由于身體各部位在運動幅度、音頻相關(guān)性及細節(jié)特征上存在多樣性,給生成任務(wù)帶來了挑戰(zhàn)。如果僅依賴音頻作為控制信號,往往無法捕捉視頻中大幅度的手勢運動,從而導(dǎo)致更明顯的偽影和失真,現(xiàn)有的方法通常是通過增加額外的先驗輸入來解決這一問題,但這可能會限制該任務(wù)的實際應(yīng)用。

近日,中國科學(xué)院沈陽自動化研究所智能檢測與裝備研究室科研團隊提出了一種運動掩碼引導(dǎo)的雙階段手勢視頻生成網(wǎng)絡(luò)方法。該方法無需額外先驗信息,僅采用音頻信號驅(qū)動人體上半身圖像,即可實現(xiàn)口型、表情與手勢協(xié)同變化的高質(zhì)量視頻生成。

科研人員構(gòu)建了兩階段生成框架。在第一階段,通過空間掩碼引導(dǎo)的音頻到姿態(tài)生成(SMGA)網(wǎng)絡(luò),從音頻信號中生成與語音節(jié)奏同步的姿態(tài)序列及對應(yīng)的運動掩碼,有效捕捉面部和手勢等關(guān)鍵區(qū)域的大幅度運動。在第二階段,將姿態(tài)序列、運動掩碼、音頻特征與參考圖像共同輸入人體視頻生成網(wǎng)絡(luò),并引入運動掩碼分層音頻注意力模塊,對嘴唇、面部和手部等關(guān)鍵區(qū)域進行細粒度增強,從而顯著提升生成視頻的動作真實性、紋理細節(jié)表現(xiàn)以及整體時空一致性。該研究首次在語音驅(qū)動人體視頻生成框架中引入運動掩碼引導(dǎo)機制,為增強運動區(qū)域建模能力、提升細節(jié)表現(xiàn)并緩解視頻生成中的偽影問題提供了新的技術(shù)思路。

該成果以MMGT: Motion Mask Guided Two-Stage Network for Co-Speech Gesture Video Generation為題,發(fā)表在人工智能與計算機視覺領(lǐng)域國際頂級期刊IEEE Transactions on Circuits and Systems for Video Technology中國科學(xué)院1區(qū)Top, IF=11.1)。論文第一作者為博士生王思源和劉佳偉助理研究員,通訊作者為王偉研究員。該研究獲得了國家自然科學(xué)基金項目的支持。

論文鏈接

附件: