即夢AI在官方社交媒體平臺上震撼發布了一則關于全新功能即將上線的預告,引發廣泛關注。這項名為OmniHuman的多模態視頻生成模型,憑借其獨特的技術魅力,為用戶帶來了前所未有的視頻創作體驗。用戶只需簡單地上傳一張圖片和一段音頻,OmniHuman便能迅速生成一條栩栩如生、充滿活力的AI視頻,極大地提升了AI短片制作的效率與質量。
據透露,OmniHuman是字節跳動公司自主研發的閉源模型,其技術主頁詳細介紹了該模型的強大功能。無論是肖像、半身還是全身等不同尺寸的圖片輸入,OmniHuman都能根據音頻內容,在視頻中讓人物呈現出與之相匹配的動作,如演講、唱歌、樂器演奏以及行走等。這一技術不僅解決了人物視頻生成中常見的手勢崩壞問題,還顯著提升了生成視頻的自然度。
OmniHuman在動漫、3D卡通等非真人圖片輸入方面也展現出了卓越的表現。它能夠保持特定風格和原有的運動模式,生成的視頻效果令人驚嘆。這一技術的突破,無疑為視頻創作者提供了更多的創作可能性和想象空間。
為了防止這項技術被濫用,字節跳動技術團隊在OmniHuman的技術主頁上特別注明,該模型將不會對外提供下載。這一舉措不僅體現了字節跳動對技術安全的重視,也彰顯了其作為科技企業的社會責任感。
即夢AI的相關負責人表示,盡管OmniHuman已經展現出了出色的表現,但在生成影視真實級別的視頻方面,仍存在一定的提升空間。因此,該模型支持的多模態視頻生成功能將首先在即夢平臺上進行小范圍內測,以便進行進一步的調優和調整。同時,即夢還將為這一功能設置嚴格的安全審核機制,并對輸出的視頻標注水印,以確保AI技術的正面應用和積極作用。
隨著OmniHuman技術的不斷成熟和完善,相信它將為視頻創作者帶來更多的驚喜和靈感。同時,即夢AI也將繼續致力于技術創新和用戶體驗的提升,為用戶提供更加優質、便捷的視頻創作服務。