第十七屆 SIGGRAPH Asia 大會在東京圓滿落幕,這場為期四天的盛會以“好奇之心”為主題,吸引了眾多學者和專家前來參與。注冊人數和論文投稿數均刷新了歷史記錄,充分展現了學術界對這一領域的熱情。
在大會的舞臺上,華人學者再次成為耀眼的焦點。無論是哪一場演講或哪一篇論文,幾乎都能看到華人學者的身影。他們的研究成果和創新思維,為大會注入了源源不斷的活力。
在計算機視覺學界,研究者們主要分為新興派和傳統派。新興派聚焦于具身智能和3D生成等前沿領域,而傳統派則繼續深耕幾何建模和幾何處理的細節問題。盡管新興派的論文成果如雨后春筍般涌現,但傳統派的研究依然占據著一席之地。
除了學術論文的激烈討論,今年的展位同樣熱鬧非凡。與往年相比,動作捕捉的展示項目占據了主導地位。同時,以VAST、影眸、元象為代表的3D AIGC大陸廠商也積極參與了展出,展示了他們在這一領域的最新成果。
從產業化的角度來看,3D的應用面目前還無法與多模態大模型相媲美。然而,深圳大學計算機與軟件學院教授胡瑞珍對這一領域的發展前景十分看好。她認為,數字媒體的形式一直在不斷迭代更新,從最初的音頻到二維圖像視頻,未來很可能會發展到三維形式,如體積視頻、元宇宙等。這些新興領域都強調3D內容和三維感知。
現階段,3D領域還是一條相對不那么擁擠的賽道,這為學術研究和創業提供了廣闊的發展空間。在大會現場,多位從業者表示,3D生成方向的技術成果正在快速更新,但關于端到端和多步迭代路徑的選擇,業內還存在一定的分歧。
技術尚未完全成熟,因此3D AIGC的應用落地還處于早期階段。用戶對三維的認知和需求都有待提升。目前,3D在游戲、美術設計和電商等貼近日常生活的領域應用較多,而工業界的落地已經相對成熟。在Animation技術方面,還需要取得更多突破,特別是在骨骼方面缺乏具有規模性的模型。
在幾何和紋理方向,近年來持續涌現出前沿技術。海外如meta的3D Gen、Adobe的LRM、Google的DreamFusion等,國內則有CLAY、TEXGen等代表性技術。影眸科技在SIGGRAPH上被提名榮譽獎的3D原生Diffusion Transformer生成式大模型CLAY,解決了2D升維法的問題,實現了直接從3D數據集訓練模型的突破。
CLAY的進階版本Rodin Gen-1也在今年6月正式上線,并在大會上展出。VAST采用基于rectified flow的大規模形狀生成模型,能夠在采樣步數更少的情況下實現更高精度,同時訓練更穩定。在紋理生成方面,此前主流的操作方式存在各種局限,如依賴圖像模型而不具有整體三維感知能力等。
此次,VAST和港大、清華團隊獲得最佳論文提名獎的論文《TEXGen: a Generative Diffusion Model for Mesh Textures》提出了新的解決方案。論文第一作者余鑫表示,他們做的模型不需要依賴2D升3D的方式,直接訓練一個原生的diffusion model輸出3D紋理內容。這種原生的3D模型能一次性生成整個物體的紋理。
余鑫認為,紋理比幾何更復雜、變化更大,且神經網絡難以處理紋理數據。因此,這一賽道當前還鮮有人切入。他之前也嘗試過利用2D升維的3D生成工作,但認為長期來講,還是要走通過3D數據訓練的feed-forward路線。
在數據方面,多位業者強調數據對于3D生成平臺的重要性。VAST首席科學家曹炎培表示,他們目前擁有2000萬高質量3D訓練數據,而訓練開源模型或沒有私有數據的團隊可能只能用到幾十萬數據。這種數據量的差異會導致最終3D AI生成模型在精度、泛化性、多樣性和可控性等方面的差異。
影眸科技CTO張啟煊同樣強調了數據質量的重要性。他認為,對于3D生成來說,數據的絕對數量并不重要,質量才是關鍵。高質量數據需要足夠細節、平整,達到production ready的質量,才能用于實際生產中。
除了數據,3D Tokenizer也是當前技術上具有挑戰性的部分。文字Tokenizer已經發展到比較成熟的階段,圖像、視頻方面也有了Sora等先例,但3D的研究成果還在持續更新中。應用場景方面,3D生成領域目前還不夠明晰。業內認為,如果僅服務于游戲、美術等方面,市場盤子不夠大。多家廠商目前主要集中于游戲、設計、3D打印、電商等落地場景。
VAST面向的場景之一是幫助游戲、動畫行業降本增效,降低內容制作成本和時間。另一個場景是泛定制化、泛工業的3D打印。未來最關注的場景則是需要實時低成本3D內容創作的UGC場景。曹炎培表示,從邏輯和技術發展趨勢上來講,3D內容平臺是未來一定會出現的應用方向。
影眸科技切入的賽道與VAST有所不同,他們所做的工具更為專業。在今年SIGGRAPH的Real-time Live環節中,影眸團隊展示了其特有的3D ControlNet功能。張啟煊表示,他們希望讓藝術家能夠自己掌控生成的環節,而不是讓AI像老虎機一樣隨機生成。
電商也是3D生成當前的一塊落地場景。影眸目前主要為家具、工藝品商家提供3D模型。不過,服裝類暫時不被各家納入應用范疇。此前,虛擬試衣一直分為3D和2D兩派。張啟煊表示,現在大家想做虛擬試衣,基本上會跳過3D步驟,直接進行視頻生成。
在工業界范圍內,3D的落地已經相當廣泛。胡瑞珍表示,類似智能智慧工廠、港口的智慧調度等場景都需要三維內容。這部分的發展遠比人們想象的要成熟,只是距離日常生活稍微有點遠,許多人不太了解。
動態3D模型方面,元象選擇了3D市場中的其他切入方向。大空間VR是他們此次展出的重點產品。元象引擎和AIGC算法負責人黃浩智表示,他們主要以超采樣配合性能優化帶來高清晰度畫面,品質清晰度、不眩暈以及幀率穩定是他們大空間VR的優勢。
元象還展示了一款骨骼動畫的插件,通過文本生成骨骼動畫的動作。不過,在Animation Rigging方向上,還比較缺少用數據訓練得非常充分、非常具有規模的模型來服務動態3D。MotionGen在動作自然度、文本匹配度等方面還有待提升。