(資料圖)
IT之家 12 月 18 日消息,據“龍貓 LongCat”公眾號今晚的推文,美團 LongCat 團隊正式發布并開源 SOTA 級虛擬人視頻生成模型 ——LongCat-Video-Avatar。
該模型基于 LongCat-Video 基座打造,延續“一個模型支持多任務”的核心設計,原生支持 Audio-Text-to-Video、Audio-Text-Image-to-Video 及視頻續寫等核心功能,同時在底層架構上全面升級,實現動作擬真度、長視頻穩定性與身份一致性三大維度的突破。
據官方介紹,該模型具備如下技術亮點。
“告別僵硬,迎接鮮活”:不僅能指揮嘴型,還能同步指揮眼神、表情和肢體動作,實現豐富飽滿的情感表達。
連“不說話”的時候,都很像人:美團通過 Disentangled Unconditional Guidance(解耦無條件引導)訓練方法,讓模型明白了“靜音”不等于“死機”。在說話的間歇,虛擬人也會如同人類一般自然地眨眼、調整坐姿、放松肩膀。
據介紹,LongCat-Video-Avatar 因此成為首個同時支持文字、圖片、視頻三種生成模式的“全能選手”,虛擬人從此有了“真正的生命力”。
在 HDTF、CelebV-HQ 、EMTD 和 EvalTalker 等權威公開數據集上的定量評測表明,LongCat-Video-Avatar 在多項核心指標上達到 SOTA 領先水平。
IT之家附項目地址:
關于我們| 聯系方式| 版權聲明| 供稿服務| 友情鏈接
咕嚕網 www.xasjztdc.com 版權所有,未經書面授權禁止使用
Copyright©2008-2023 By All Rights Reserved 皖ICP備2022009963號-10
聯系我們: 39 60 29 14 2@qq.com