谷歌DeepMind團隊與麻省理工學院(MIT)合作推出了一款名為“Fluid”的新模型,該模型在文生圖領域取得了顯著成果。據科技媒體The Decoder報道,Fluid模型在參數規模達到105億時,能夠生成最佳的圖像效果。
在文生圖領域,自回歸模型與擴散模型一直存在競爭。擴散模型通過迭代減少隨機噪聲來生成高質量數據,而自回歸模型則依賴于序列中的前面元素來預測下一個元素。
Fluid模型之所以能夠在文生圖領域脫穎而出,關鍵在于其采用了連續tokens和隨機生成順序兩個創新設計。連續tokens能夠更精確地圖像信息存儲,減少信息丟失,而隨機生成順序則讓模型在每一步都能預測任意位置的多個像素,從而更好地理解整體圖像結構。
在重要基準測試中,Fluid模型超越了Stable Diffusion 3擴散模型和谷歌此前的Parti自回歸模型。與Parti相比,Fluid在參數規模遠小于Parti的情況下,仍能在MS-COCO上達到相同的FID分數。