科技媒體The Decoder于昨日發布了一篇引人注目的報道,披露了OpenAI公司最新推出的MLE-bench基準。這一基準旨在評估AI智能體在開發機器學習解決方案方面的實力,覆蓋了75個Kaggle競賽,涵蓋了自然語言處理、計算機視覺和信號處理等多個領域。
MLE-bench專注于兩個核心領域:選擇具有挑戰性的任務,這些任務代表著當前機器學習的發展前沿;比較AI與人類的表現,以此評估AI在特定任務中的能力。
OpenAI在MLE-bench上測試了多個AI模型和智能體框架,其中使用AIDE框架的o1-preview模型表現尤為出色,在16.9%的比賽中至少獲得了一枚銅牌,這一成績甚至超越了Anthropic的Claude 3.5 Sonnet。
值得注意的是,MLE-bench上的任務具有現實世界的應用價值,如預測COVID-19 mRNA疫苗的降解或解碼古代卷軸等。而獲得5枚金牌即可評為“Grandmaster”特級大師,o1-preview模型在測試中更是獲得了7枚金牌。
然而,OpenAI也承認MLE-bench存在局限性,它并未涵蓋AI研究與開發的所有方面,而是主要集中在那些具有明確問題和簡單評估指標的任務上。
盡管如此,MLE-bench基準的推出無疑為AI在機器學習領域的發展提供了新的推動力。該基準現已在GitHub上發布,OpenAI希望通過這一工具,進一步推動AI在機器學習領域的創新與應用。