近期,科技界迎來了一項(xiàng)令人矚目的新進(jìn)展——DeepSeek公司在其預(yù)定的“開源周”活動(dòng)中,正式揭曉了其最新研發(fā)成果:DeepGEMM開源項(xiàng)目。該項(xiàng)目一經(jīng)發(fā)布,便迅速在網(wǎng)絡(luò)上引發(fā)了熱烈反響,累計(jì)瀏覽量迅速攀升至2.1萬次,彰顯了其在全球技術(shù)領(lǐng)域的影響力。
DeepGEMM是一款專為FP8高效通用矩陣乘法(GEMM)設(shè)計(jì)的庫,旨在滿足廣泛矩陣計(jì)算需求,特別是在混合專家(MoE)分組場(chǎng)景中展現(xiàn)出卓越性能。通過動(dòng)態(tài)優(yōu)化資源分配,DeepGEMM能夠顯著提升計(jì)算效率,為深度學(xué)習(xí)等應(yīng)用場(chǎng)景提供強(qiáng)有力的支持。
據(jù)悉,DeepGEMM基于CUDA架構(gòu)開發(fā),融入了先進(jìn)的輕量級(jí)即時(shí)編譯(JIT)技術(shù)。這一創(chuàng)新設(shè)計(jì)使得DeepGEMM能夠在運(yùn)行時(shí)動(dòng)態(tài)編譯內(nèi)核,無需繁瑣的預(yù)編譯和安裝過程,為用戶提供了極大的便利。
DeepGEMM的推出,不僅彰顯了DeepSeek在高性能計(jì)算領(lǐng)域的深厚實(shí)力,更體現(xiàn)了其致力于技術(shù)開放與合作的堅(jiān)定信念。該項(xiàng)目是DeepSeek“開源周”活動(dòng)的第三項(xiàng)重要成果,此前已相繼發(fā)布了FlashMLA(高效解碼內(nèi)核)和DeepEP(專家并行通信庫)兩個(gè)開源項(xiàng)目。
此次“開源周”活動(dòng)自2月24日啟動(dòng),將持續(xù)至2月28日。活動(dòng)期間,DeepSeek計(jì)劃發(fā)布多項(xiàng)開源項(xiàng)目,旨在通過共享技術(shù)成果,推動(dòng)整個(gè)行業(yè)的創(chuàng)新與發(fā)展。DeepGEMM作為其中的佼佼者,更是備受矚目。
DeepGEMM特別針對(duì)Hopper架構(gòu)GPU(如H800)進(jìn)行了深度優(yōu)化,不僅確保了高性能表現(xiàn),還有效控制了成本。這一優(yōu)化策略無疑為DeepSeek-V3/R1模型的訓(xùn)練與推理提供了更為簡(jiǎn)潔高效的底層支持。