今日,據(jù)媒體報(bào)道,在多個(gè)公開(kāi)數(shù)據(jù)集測(cè)評(píng)中,百度最新發(fā)布的文心大模型X1,在數(shù)學(xué)、代碼、推理等能力上表現(xiàn)優(yōu)異,超越升級(jí)后的DeepSeek-V3-0324。
在數(shù)學(xué)場(chǎng)景中,GSM8K數(shù)據(jù)集測(cè)試后結(jié)果顯示,文心X1得分95.6,DeepSeek-V3-0324得分93.6;代碼生成層面,Humaneval數(shù)據(jù)集測(cè)試后結(jié)果顯示,文心X1得分90.9,DeepSeek-V3-0324得分86.6;在知識(shí)推理層面,C-eval數(shù)據(jù)集測(cè)試后結(jié)果顯示,文心大模型X1得分88.6,DeepSeek-V3-0324得分85.1。

近日,DeepSeek官方宣布V3模型完成小版本升級(jí)的消息,包括推理、前端開(kāi)發(fā)、中文寫(xiě)作、中文搜索幾個(gè)方面的能力優(yōu)化。
而在不久前,百度正式發(fā)布文心大模型X1,具備更強(qiáng)的理解、規(guī)劃、反思、進(jìn)化能力。文心X1由百度的慢思考技術(shù)發(fā)展而來(lái)。作為能力更全面的深度思考模型,兼?zhèn)錅?zhǔn)確、創(chuàng)意和文采,在中文知識(shí)問(wèn)答、文學(xué)創(chuàng)作、文稿寫(xiě)作、日常對(duì)話、邏輯推理、復(fù)雜計(jì)算及工具調(diào)用等方面表現(xiàn)尤為出色。
據(jù)悉,文心大模型X1即將上線千帆大模型平臺(tái),API調(diào)用價(jià)格為DeepSeek-R1調(diào)用價(jià)格的50%。