在科技界風(fēng)起云涌的浪潮中,一項(xiàng)新興的研究成果猶如一股清流,迅速吸引了業(yè)界的廣泛關(guān)注。近日,DeepSeek研究團(tuán)隊(duì)攜其最新力作——一種名為NSA的全新注意力機(jī)制,強(qiáng)勢(shì)回歸,與馬斯克發(fā)布的Grok 3形成了鮮明的對(duì)比,兩者熱度不相上下。
DeepSeek團(tuán)隊(duì)通過(guò)一條簡(jiǎn)短的推文,便引發(fā)了超過(guò)三十萬(wàn)次的瀏覽熱潮,其影響力直逼OpenAI。推文中透露出的研究論文,更是如同一枚重磅炸彈,震撼了整個(gè)AI領(lǐng)域。
NSA,這一由DeepSeek團(tuán)隊(duì)精心打造的注意力機(jī)制,以其獨(dú)特的動(dòng)態(tài)分層稀疏策略、粗粒度token壓縮以及細(xì)粒度token選擇三大核心技術(shù),成功實(shí)現(xiàn)了在大幅降低預(yù)訓(xùn)練成本的同時(shí),顯著提升推理速度。特別是在解碼階段,其性能提升高達(dá)11.6倍,令人嘆為觀止。
DeepSeek的創(chuàng)始人兼CEO梁文鋒,此次不僅親自參與了研究,更是親自提交了論文,這無(wú)疑為團(tuán)隊(duì)的研究成果增添了更多的分量。他的身影出現(xiàn)在合著名單之中,也引發(fā)了網(wǎng)友們的紛紛調(diào)侃,甚至有人借此機(jī)會(huì)向奧特曼“示好”,戲稱DeepSeek又發(fā)表了一篇強(qiáng)大的新論文。
NSA的問(wèn)世,無(wú)疑填補(bǔ)了稀疏注意力機(jī)制存在的缺陷。隨著AI技術(shù)的不斷發(fā)展,長(zhǎng)上下文建模能力的重要性日益凸顯。然而,傳統(tǒng)的注意力機(jī)制在面對(duì)越來(lái)越長(zhǎng)的序列時(shí),其復(fù)雜性成為了制約運(yùn)行速度的瓶頸。NSA通過(guò)巧妙地利用softmax注意力的固有稀疏性,選擇性地計(jì)算關(guān)鍵的query-key對(duì),從而實(shí)現(xiàn)了計(jì)算開(kāi)銷(xiāo)的大幅降低,同時(shí)保持了模型的卓越性能。
DeepSeek團(tuán)隊(duì)在研究中發(fā)現(xiàn),現(xiàn)有的稀疏注意力技術(shù)在實(shí)際部署時(shí)往往未能達(dá)到預(yù)期效果,且大多集中在推理階段,缺乏對(duì)訓(xùn)練階段的有效支持。為此,他們提出了原生可訓(xùn)練的稀疏注意力架構(gòu)NSA,通過(guò)動(dòng)態(tài)分層稀疏策略、粗粒度token壓縮和細(xì)粒度token選擇的有機(jī)結(jié)合,成功保留了全局上下文感知能力和局部精確性。
在評(píng)估NSA的技術(shù)性能時(shí),研究團(tuán)隊(duì)從通用基準(zhǔn)性能、長(zhǎng)文本基準(zhǔn)性能和思維鏈推理性能三個(gè)維度進(jìn)行了全面比較。結(jié)果顯示,NSA在各項(xiàng)評(píng)測(cè)中均表現(xiàn)出色,不僅預(yù)訓(xùn)練損失曲線穩(wěn)定平滑,且整體性能優(yōu)于全注意力模型和現(xiàn)有的稀疏注意力方法。
特別是在長(zhǎng)上下文任務(wù)中,NSA展現(xiàn)出了極高的檢索精度和全局感知能力。這得益于其分層稀疏注意力設(shè)計(jì),通過(guò)粗粒度token壓縮實(shí)現(xiàn)了高效的全局上下文掃描,同時(shí)通過(guò)細(xì)粒度選擇性標(biāo)記保留了關(guān)鍵信息,從而實(shí)現(xiàn)了全局感知與局部精確度的完美平衡。
NSA還通過(guò)Triton開(kāi)發(fā)了與硬件高度兼容的稀疏注意力內(nèi)核,進(jìn)一步優(yōu)化了計(jì)算效率。DeepSeek團(tuán)隊(duì)采用的查詢分組方法,通過(guò)組內(nèi)數(shù)據(jù)加載、共享KV加載和網(wǎng)格循環(huán)調(diào)度等特性,實(shí)現(xiàn)了接近最優(yōu)的計(jì)算強(qiáng)度平衡。
NSA的研究成果還驗(yàn)證了清華大學(xué)姚班早期論文中的結(jié)論。在處理復(fù)雜數(shù)學(xué)問(wèn)題時(shí),NSA通過(guò)優(yōu)化問(wèn)題理解和答案生成,成功減少了所需的tokens數(shù)量,從而得出了正確答案。這一顯著提升不僅展示了NSA在效率和準(zhǔn)確性上的優(yōu)勢(shì),也再次證明了AI技術(shù)在不斷推陳出新中取得的長(zhǎng)足進(jìn)步。