国产98在线 | 传媒麻豆,久久―日本道色综合久久,久久久精品久久久久久久久久久,国产成人精品免费久久久久,五月综合色婷婷影院在线观看,久久久亚洲精品视频

  • 虎科技 - 領先的互聯網科技媒體

AI雖快卻不準,OpenAI最新研究:當前模型難敵人類程序員

   時間:2025-02-24 10:16 來源:ITBEAR作者:顧雨柔

近期,OpenAI的首席執行官薩姆·奧爾特曼發表了一項大膽預測,他聲稱到今年年底,人工智能模型將超越“入門級”軟件工程師的能力。然而,OpenAI內部研究人員的最新研究成果卻給出了不同的答案。

在這項研究中,研究人員揭示了一個令人意外的發現:即便是目前最前沿的人工智能模型,也無法與人類程序員相提并論。為了驗證這一點,他們開發了一個名為SWE-Lancer的新基準測試工具,該工具基于自由職業者網站Upwork上的真實軟件工程任務。

研究人員選取了三款大型語言模型(LLMs)進行測試,包括OpenAI自家的o1推理模型、旗艦產品GPT-4o,以及Anthropic公司的Claude 3.5 Sonnet。這些模型在測試中需要處理兩類任務:一類是個體任務,如修復漏洞;另一類是管理任務,需要做出更高層次的決策。

測試結果顯示,盡管這些模型在某些細節任務上能夠迅速給出答案,但它們在處理大型項目中的漏洞及其根源時卻顯得力不從心。這些“半成品”解決方案往往缺乏全面性和準確性,與AI常見的“自信滿滿但漏洞百出”的信息輸出如出一轍。

值得注意的是,在測試過程中,這些模型被禁止訪問互聯網,以確保它們無法抄襲網上已有的答案。即便如此,它們的表現仍然令人失望。盡管三款LLMs在完成任務的速度上遠超人類,但它們在理解漏洞的廣泛性和背景方面存在明顯不足,導致解決方案往往錯誤或不夠全面。

其中,Claude 3.5 Sonnet的表現略勝一籌,甚至在測試中“賺取”的金額超過了o1和GPT-4o。然而,這并不意味著它的答案就是正確的。事實上,大多數答案仍然存在錯誤。研究人員指出,要想將AI模型真正應用于實際編程任務,還需要提高其可靠性。

這項研究似乎表明,盡管前沿的人工智能模型在處理一些細節任務時表現出色,但它們在軟件工程領域的整體技能水平仍然遠遠不及人類工程師。這些模型在處理復雜任務時的局限性,再次凸顯了人類智慧在編程領域的不可替代性。

然而,令人擔憂的是,一些首席執行官似乎并未受到這項研究的影響。他們仍然選擇解雇人類程序員,轉而使用這些尚未成熟的AI模型。這種做法不僅可能帶來潛在的風險和損失,也忽視了人類工程師在軟件開發中的獨特價值。

 
 
更多>同類內容
推薦圖文
推薦內容
點擊排行
 
智快科技微信賬號
ITBear微信賬號

微信掃一掃
加微信拉群
電動汽車群
科技數碼群

主站蜘蛛池模板: 欧美成人精品手机在线观看 | 亚洲国产成人久久综合一区 | 激情综合图区 | 免费自拍偷拍 | 午夜欧美精品久久久久久久 | 亚洲日韩第一页 | 欧美亚洲一区二区三区四 | 色网站免费在线观看 | 色欧美片视频在线观看 | 一区二区高清视频 | 国产男女爱视频在线观看 | 亚洲天码中文字幕第一页 | 亚洲国内精品 | 国产一区曰韩二区欧美三区 | 成人久久精品一区二区三区 | 国产精品午夜波多野结衣性色 | 欧美日韩国产免费一区二区三区 | 亚洲国产欧美在线成人aaaa | 久久男人网 | 亚洲高清视频免费 | 最新国产在线观看福利 | 隣の若妻さん波多野结衣 | 五月天丁香婷婷综合久久 | 五月天婷婷丁香花 | 男人天堂av网 | 性欧美激情在线观看 | 2021国产麻豆剧传媒官网 | 亚洲毛片免费视频 | 亚洲光棍天堂 | 伊人网影院 | 在线观看欧美精品 | 丁香花五月婷婷开心 | 亚洲欧美日韩精品 | 亚洲爱婷婷色婷婷五月 | 亚洲六月婷婷 | 亚洲一区二区高清 | 波多野结衣成人 | 中文字幕动漫精品专区 | 亚洲黄色性视频 | 国色天香社区在线观看免费播放 | 激情五月婷婷丁香 |