OpenAI百万美元豪测：顶级大模型取代不了程序员

作者：佚名

2025-02-21 11:08

当Sam Altman宣称大模型将取代"低阶程序员"时，OpenAI自家的最新研究却给出了相反的答案。该研究联合百名工程师开展SWE-Lancer基准测试，结果显示：面对价值百万美元的真实软件开发任务，三大顶尖大模型的总收入竟不足21%，最强者Claude 3.5也仅解决26%技术问题。这场AI与人类程序员的"抢饭碗"对决，暂时以机器的惨败告终。

百万美元悬赏：AI抢不走程序员饭碗？

研究团队从自由职业平台Upwork精选1,488个真实开发任务，总赏金高达100万美元。这些任务被分为两类：技术攻坚（IC，764项，41.5万美元）需解决程序错误或开发新功能；项目管理（Manager，724项，58.5万美元）则需评估技术方案优劣。三大参赛选手——OpenAI的GPT-4o、o1和Anthropic的Claude 3.5 Sonnet被置于完全断网的Docker容器中，以防止其"偷看"GitHub代码。

为确保测试真实性，研究人员构建了堪称严苛的评估体系：首先由专业工程师编写Playwright自动化测试脚本，模拟用户登录、金融交易等真实操作流程；每项AI生成的代码方案需经过专业软件工程师的"三重验证"，确保其能通过所有测试用例；最终结果直接接入企业级报销平台Expensify，完全复现真实商业场景。

经过测试，研究人员发现，没有一个模型能包揽100万美元的全部任务奖励。表现最好的Claude 3.5 Sonnet（OpenAI自家模型o1和GPT-4o分列二三位）也只赚了20.8万美元，解决了26.2%的个人贡献者问题。然而，研究人员指出，“它的大部分解决方案都是错误的，可信部署需要更高的可靠性。”

LLM尝试不同类型软件开发任务的通过率