国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領(lǐng)先的互聯(lián)網(wǎng)科技媒體

首次覆蓋超11類(lèi)編程場(chǎng)景!字節(jié)開(kāi)源最全面代碼大模型基準(zhǔn)FullStack Bench

   時(shí)間:2024-12-05 14:39

代碼大模型越來(lái)越卷,評(píng)估AI編程水平的“考卷”也被迫升級(jí)。12月5日,字節(jié)豆包大模型團(tuán)隊(duì)開(kāi)源最新代碼大模型評(píng)估基準(zhǔn)FullStack Bench,在業(yè)界首次囊括編程全棧技術(shù)中超11類(lèi)真實(shí)場(chǎng)景,覆蓋16種編程語(yǔ)言,包含3374個(gè)問(wèn)題,相比此前基準(zhǔn),可以更有效地評(píng)估大模型在現(xiàn)實(shí)世界中的代碼開(kāi)發(fā)能力。

代碼評(píng)估基準(zhǔn)是衡量大模型編程能力的標(biāo)準(zhǔn)工具,也是推動(dòng)模型優(yōu)化的關(guān)鍵驅(qū)動(dòng)力。不過(guò),當(dāng)前的代碼評(píng)估基準(zhǔn)覆蓋的應(yīng)用類(lèi)型和編程語(yǔ)言較為有限,難以反映真實(shí)世界中代碼開(kāi)發(fā)場(chǎng)景的多樣性和復(fù)雜性。

比如,主流代碼評(píng)測(cè)集Humaneval和MBPP中近80%數(shù)據(jù)只聚焦基礎(chǔ)編程和高級(jí)編程問(wèn)題;DS-1000中95%數(shù)據(jù)都集中于數(shù)據(jù)分析和機(jī)器學(xué)習(xí)任務(wù),且僅對(duì)Python語(yǔ)言進(jìn)行評(píng)測(cè);xCodeeval雖覆蓋多項(xiàng)任務(wù),但基本局限于高級(jí)編程和數(shù)學(xué)領(lǐng)域。

圖表, 條形圖

描述已自動(dòng)生成

FullStack Bench數(shù)據(jù)覆蓋超11種應(yīng)用領(lǐng)域,遠(yuǎn)超當(dāng)前主流代碼評(píng)估基準(zhǔn)

因此,字節(jié)豆包大模型團(tuán)隊(duì)與M-A-P開(kāi)源社區(qū)聯(lián)合提出FullStack Bench,一個(gè)專(zhuān)注于全棧編程和多語(yǔ)言編程的代碼評(píng)估數(shù)據(jù)集。為囊括在真實(shí)全棧開(kāi)發(fā)中涉及的各類(lèi)應(yīng)用場(chǎng)景,研究團(tuán)隊(duì)從全球最大的程序員技術(shù)問(wèn)答社區(qū)Stack Overflow中隨機(jī)抽取了50萬(wàn)個(gè)問(wèn)題進(jìn)行分析,篩選出占總問(wèn)題數(shù)前88.1%的應(yīng)用領(lǐng)域,并對(duì)其分布做了適當(dāng)調(diào)整來(lái)保證每個(gè)領(lǐng)域的魯棒性,最終形成了FullStack Bench關(guān)注的超過(guò)11種應(yīng)用場(chǎng)景及分布比例。

FullStack Bench包含3374個(gè)問(wèn)題,每個(gè)問(wèn)題均包括題目描述、參考解決方案及單元測(cè)試用例,總計(jì)15168個(gè)單元測(cè)試。為保證評(píng)估準(zhǔn)確性,問(wèn)題內(nèi)容均由相關(guān)領(lǐng)域的編程專(zhuān)家設(shè)計(jì),并經(jīng)AI和人工驗(yàn)證進(jìn)行質(zhì)量復(fù)核。在初始數(shù)據(jù)集構(gòu)建后,團(tuán)隊(duì)根據(jù)主流代碼大模型測(cè)試結(jié)果,按問(wèn)題難度、模糊性和可解性對(duì)數(shù)據(jù)質(zhì)量進(jìn)行了交叉評(píng)估和進(jìn)一步完善。

表格

描述已自動(dòng)生成

FullStack Bench數(shù)據(jù)集構(gòu)成情況

為方便開(kāi)發(fā)者對(duì)大模型代碼能力進(jìn)行系統(tǒng)性測(cè)試,豆包大模型團(tuán)隊(duì)還開(kāi)源了一款高效的代碼沙盒執(zhí)行工具——SandboxFusion,用于評(píng)估來(lái)自不同語(yǔ)言的不同編程任務(wù)。除了FullStack Bench,SandboxFusion還兼容超過(guò)10種廣泛使用的代碼評(píng)估數(shù)據(jù)集,支持23種編程語(yǔ)言。開(kāi)發(fā)者在單服務(wù)器上即可輕松部署SandboxFusion,也可直接在GitHub上進(jìn)行體驗(yàn)。

圖形用戶(hù)界面

描述已自動(dòng)生成

發(fā)布評(píng)測(cè)基準(zhǔn)及沙盒的同時(shí),字節(jié)代碼大模型也首次曝光。研究中,豆包大模型團(tuán)隊(duì)對(duì)全球20余款代碼大模型及語(yǔ)言大模型的編程表現(xiàn)進(jìn)行了評(píng)測(cè)(詳見(jiàn)論文),其中包括未披露過(guò)的豆包代碼大模型Doubao-Coder。

近半年,字節(jié)在代碼大模型領(lǐng)域進(jìn)展迅速,今年6月字節(jié)發(fā)布了由自研代碼基座模型支撐的AI編程助手豆包MarsCode ,目前每月為用戶(hù)貢獻(xiàn)百萬(wàn)量級(jí)代碼。

論文地址:https://arxiv.org/pdf/2412.00535v2

數(shù)據(jù)集開(kāi)源地址:https://huggingface.co/datasets/ByteDance/FullStackBench

沙盒開(kāi)源地址:https://github.com/bytedance/SandboxFusion

沙盒體驗(yàn)入口:https://bytedance.github.io/SandboxFusion/playground/datasets

 
 
更多>同類(lèi)內(nèi)容
推薦圖文
推薦內(nèi)容
點(diǎn)擊排行
 
智快科技微信賬號(hào)
ITBear微信賬號(hào)

微信掃一掃
加微信拉群
電動(dòng)汽車(chē)群
科技數(shù)碼群

主站蜘蛛池模板: 五月婷婷伊人 | 亚洲第一区精品观看 | 亚洲成片观看四虎永久 | 精品国产免费第一区二区 | 中文字幕在线精品不卡 | 亚洲欧美精品一区二区 | 聚会的目的4韩语中文字 | 亚洲自拍成人 | 在线国产高清 | 免费一区二区三区久久 | 雅虎日本免费一区二区三区 | 在线观看毛片网站 | 久久精品国产这里是免费 | 一区二区三区免费看 | 成人毛片一区二区三区 | 国产99视频免费精品是看6 | 欧美成人看片一区二区三区 | 亚洲精品乱码久久久久久蜜桃 | 东方亚洲东方欧美色二区 | 久热中文字幕在线精品免费 | 国产精品视频免费看 | 伊人成人在线观看 | 免费羞羞网站 | 2020国产精品久久久久 | 久久精品免费一区二区视 | 中文字幕在第10页线观看 | 亚洲福利精品 | 综合久久一区二区三区 | 激情婷婷综合 | 日日网| 欧美成人久久 | 九色视频在线播放 | 欧美日韩永久久一区二区三区 | 精品国内在线视频2019百度 | 波多野结衣在线资源 | 在线观看亚洲 | 在线观看国产精品入口 | 精品日韩在线观看 | 永久免费视频v片www | 国产精品久久久久久久久久久久久久 | 亚洲午夜精品一区二区 |