近日,清華大學人工智能研究院的一項重大創(chuàng)新引發(fā)了業(yè)界的廣泛關注。該研究院副院長、同時也是生數(shù)科技創(chuàng)始人及首席科學家的朱軍,正式推出了名為Vidu Q1的高可控視頻大模型,這一成果被標榜為行業(yè)內(nèi)首個具備高度可控性的AI視頻大模型。
據(jù)官方介紹,Vidu Q1在多個關鍵技術(shù)領域?qū)崿F(xiàn)了顯著突破,尤其是在多主體細節(jié)可控性、音效同步控制以及畫質(zhì)增強方面。以多主體細節(jié)可控為例,該模型不僅能夠基于語義指令進行操作,還能融入?yún)⒖紙D的視覺信息,進一步實現(xiàn)對視頻中多個主體位置、大小、運動軌跡等屬性的精確控制。無論是角色的出場順序、退場方式,還是坐立姿態(tài)、行動路線,Vidu Q1都能進行細致入微的調(diào)整,以滿足用戶的多樣化需求。
在音效同步控制方面,Vidu Q1同樣表現(xiàn)出色。它能夠根據(jù)視頻環(huán)境的變化和畫面的切換,自動生成相應的音效,并實現(xiàn)對音效長短區(qū)間和出現(xiàn)時間點的精準控制。例如,在視頻的前兩秒內(nèi),可以精確設置風聲作為背景音效,而在接下來的三到五秒內(nèi),則切換為雨聲,從而營造出更加真實、生動的視聽體驗。
這一創(chuàng)新成果的問世,標志著AI視頻生成技術(shù)邁上了一個新的臺階。Vidu Q1的高可控性不僅為用戶提供了更加靈活多樣的視頻創(chuàng)作方式,也為視頻制作、動畫制作、廣告創(chuàng)意等行業(yè)帶來了全新的可能性。可以預見,隨著該技術(shù)的不斷成熟和推廣,它將在未來發(fā)揮更加重要的作用,推動相關行業(yè)的快速發(fā)展。