昆侖萬(wàn)維集團(tuán)近日宣布了一項(xiàng)重要更新,其天工大模型4.0系列中的o1版和4o版已全面上線,覆蓋網(wǎng)頁(yè)端與App端,且面向公眾免費(fèi)開放使用。
天工大模型4.0 o1版被標(biāo)榜為國(guó)內(nèi)首款具備中文邏輯推理功能的o1模型。它不僅包含了開源的基礎(chǔ)模型,還推出了兩款性能更為出色的專用版本。這款模型在處理數(shù)學(xué)、代碼、邏輯推理、常識(shí)判斷以及倫理決策等復(fù)雜問題上,展現(xiàn)出了高超的能力。
與此同時(shí),天工大模型4.0 4o版作為一款多模態(tài)模型,同樣引起了廣泛關(guān)注。昆侖萬(wàn)維還推出了由該模型賦能的實(shí)時(shí)語(yǔ)音對(duì)話助手Skyo。Skyo以其出色的情感表達(dá)能力、快速響應(yīng)以及多語(yǔ)言流暢切換的特點(diǎn),為用戶提供了全新的智能對(duì)話體驗(yàn)。
據(jù)官方介紹,天工大模型背后的Skywork o1采用了三階段的自研訓(xùn)練方案。首先,通過自研的多智能體系統(tǒng),構(gòu)建高質(zhì)量的分步思考、反思和驗(yàn)證數(shù)據(jù),以此對(duì)基座模型進(jìn)行進(jìn)一步的預(yù)訓(xùn)練和監(jiān)督微調(diào)。這一過程中,大規(guī)模使用自蒸餾和拒絕采樣技術(shù),顯著提升了模型的訓(xùn)練效率和邏輯推理能力。
其次,Skywork o1團(tuán)隊(duì)研發(fā)了適配分步推理強(qiáng)化的Skywork o1 Process Reward Model(PRM)。實(shí)驗(yàn)證明,該模型能夠有效捕捉復(fù)雜推理任務(wù)中間步驟和思考步驟對(duì)最終答案的影響,結(jié)合自研的分步推理強(qiáng)化算法,進(jìn)一步加強(qiáng)了模型的推理和思考能力。
最后,Skywork o1還基于天工自研的Q*線上推理算法,配合模型在線思考,尋找最佳推理路徑。這一創(chuàng)新舉措不僅在全球范圍內(nèi)首次實(shí)現(xiàn)了Q*算法的公開,還大大提升了模型的線上推理能力。