在人工智能領域,一場悄無聲息的革命正在上演。1月20日,DeepSeek團隊震撼發布了其最新開源模型——DeepSeek-R1,該模型一經推出,便在GitHub上迅速收獲了超過4000個星標,成為大模型領域的焦點。
DeepSeek-R1的問世,不僅打破了之前關于其是否基于OpenAI o1進行蒸餾的傳言,團隊更是直接宣稱:“我們的模型可以與開源版的o1一較高下?!边@一聲明無疑為DeepSeek-R1增添了更多神秘色彩。
值得注意的是,DeepSeek-R1在模型訓練上實現了重大突破,摒棄了傳統的SFT數據,完全依賴于強化學習(RL)進行訓練。這一改變意味著模型已經具備了自我思考的能力,更加貼近人類的思維模式。
網友們對DeepSeek-R1的評價頗高,甚至有人將其譽為“開源LLM界的AlphaGo”。這一贊譽不僅體現了DeepSeek-R1的強大實力,也反映了公眾對于開源模型發展的期待。
DeepSeek團隊的自信并非空穴來風。在后訓練階段,DeepSeek-R1憑借有限的數據,在模型推理能力上遠超o1。在數學、代碼和自然語言推理等多個領域,DeepSeek-R1都展現出了卓越的性能。
例如,在AIME 2024數學競賽中,DeepSeek-R1取得了79.8%的成績,略高于OpenAI的o1-1217。在MATH-500測試中,DeepSeek-R1更是達到了97.3%的高分,與o1-1217相當,同時顯著優于其他模型。在編程競賽方面,DeepSeek-R1也表現出了專家級水平,其Codeforces上的Elo評級達到了2029,超過了96.3%的人類參賽者。
DeepSeek團隊還開源了6個參數不同的小模型,包括1.5B、7B、8B、14B、32B和70B。這些蒸餾過的模型在性能上不僅超越了GPT-4o、Claude 3.5 Sonnet和QwQ-32B,甚至與o1-mini的效果相當。
更令人驚嘆的是,DeepSeek-R1在成本上僅為o1的五十分之一,卻能實現與o1相同的效能。這種高性價比讓DeepSeek-R1成為了“花小錢,辦大事”的典范。
DeepSeek-R1的成功不僅在于其卓越的性能,更在于其開源的訓練數據集和優化工具。這一做法讓不少網友直呼:“這才是真正的Open AI?!盌eepSeek團隊的核心技術包括Self play、Grpo以及Cold start,這些技術的運用使得DeepSeek-R1在訓練過程中能夠自主思考、自我優化,從而實現了性能上的飛躍。
DeepSeek-R1的發布引起了國內外大模型從業者的廣泛關注。深度賦智CEO吳承霖評價道:“DeepSeek R1確實厲害,但方法非常簡單,核心其實就三點?!边@三點正是Self play、Grpo以及Cold start,它們共同構成了DeepSeek-R1成功的基石。