MLE-bench는 AI 에이전트의 머신러닝 엔지니어링 능력을 평가하기 위해 75개의 캐글 경진대회 문제를 활용한 벤치마크입니다. 실험 결과, 최신 언어 모델과 AIDE 도구를 결합하면 16.9%의 경진대회에서 캐글 브론즈 메달 수준의 성적을 달성할 수 있었습니다. (출처: OpenAI, MLE-BENCH: EVALUATING MACHINE LEARNING AGENTS ON MACHINE LEARNING ENGINEERING)