在科技界的一次重要動向中,DeepSeek公司在近期宣布了其“開源周”活動的深入進展,于2月27日揭曉了第四日的開源成果——專注于優化并行策略的一系列技術創新。
此次公開的技術亮點涵蓋了DualPipe,這是一種專為V3/R1訓練設計的雙向流水線并行算法,旨在通過計算與通信的重疊,顯著提升效率。同時,EPLB作為V3/R1的專家并行負載均衡器,為資源分配提供了更為智能的解決方案。DeepSeek還深入分析了V3/R1中的計算通信重疊現象,為進一步優化提供了理論基礎。
回顧整個“開源周”,DeepSeek的每一步都備受矚目。活動自2月24日啟動以來,已陸續向公眾開放了多個核心代碼庫。首日,Flash MLA作為首個開源項目,為機器學習領域注入了新的活力。緊接著,在2月25日,DeepSeek推出了DeepEP,這是一個專為MoE(混合專家)模型訓練和推理設計的EP通信庫,進一步推動了模型處理能力的邊界。
而到了2月26日,DeepSeek再次發力,開源了DeepGEMM庫。這一庫支持FP8(8位浮點數)通用矩陣乘法運算,不僅適用于密集型計算,還完美契合混合專家(MoE)架構,為高性能計算領域帶來了新的可能。
DeepSeek的這一系列開源舉措,不僅展示了其在人工智能領域的深厚積累,也體現了其開放共享、推動行業進步的企業精神。隨著“開源周”的持續深入,更多前沿技術有望被更多開發者所掌握,共同推動技術的創新與發展。