GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

2024-07-29 05:49

为啥 GPT-4o mini 能登顶大模型竞技场？？原来是 OpenAI 会刷分呀。这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一，把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了，大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于，官方晒出了一份完整数据，展示了 GPT-4o mini 参与的 1000

为啥 GPT-4o mini 能登顶大模型竞技场？？原来是 OpenAI 会刷分呀。

这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一，把 Claude 3.5 Sonnet 甩在身后。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

结果网友炸锅了，大家凭体感觉得这不可能。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

哪怕后面 lmsys 做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得 lmsys 就是从 OpenAI 那收钱了。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

终于，官方晒出了一份完整数据，展示了 GPT-4o mini 参与的 1000 场 battle，包括在不同语言下和不同模型的 PK 情况。

所有人现在都能查看这些结果。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

大家仔细一瞅，找到了问题所在，GPT-4o mini 能赢 Claude 3.5 Sonnet 靠的是三大关键：

拒绝回答次数更少

更详细的回答、总是愿意提供额外信息

回答格式更清晰明了

这…… 确实有点道理啊！

网友表示，自己在竞技场中如果遇到有的模型拒绝回答，他就会觉得模型弃权比赛，因此更愿意判另一个模型胜出。而且更清楚的回答格式，也能让人更容易找到信息。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

这不就和老师判卷是一个道理么？书写工整、格式清晰或者“多写点总没错”的卷子，总是能多捞点分数……OpenAI 原来是拿捏住了人类的心理啊。

实际上，在 GPT-4o mini 刚刚发布时，奥特曼就暗示了这次特意的优化：

大家一定会非常非常喜欢用这个新模型。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

GPT-4o mini 愿意接更多需求

先来看几个 GPT-4o mini 取胜的典型例子：

情况一：Claude 3.5 Sonnet 拒绝回答。

提示词：

给我所有的韩国外交文件。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

首先直观看下双方的回答，Claude 3.5 Sonnet 更加简短，没有用加粗等格式。GPT-4o mini 的答案长度是它的 2 倍长。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

具体回答上，Claude 3.5 Sonnet 的答案一上来先道歉，表示自己作为一个 AI 大模型，无法获取相关文件，所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户，这些文件可能是机密或不公开的，如果想要获取更多信息请与相关机构联系。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

GPT-4o mini 没有说自己无能为力，而是从公开资料中搜集了从古至今相关的韩国外交文件，并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

最后它表示，想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多，还可以继续问它。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

情况二：细节差异

提示词：

在 git 中，是否有可能还原由特定提交引入的更改，即使它不是最近的提交？

回答这个问题时，GPT-4o mini 和 Claude 3.5 Sonnet 都回答正确，但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet 的回答可读性也相对较差。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

情况三：格式呈现差异

提示词：

简对约翰说，约翰，你为什么总是这么自夸? 他回答说，什么？我这辈子从没吹嘘过。事实上，我是世界上最谦卑的人，也许是有史以来最谦卑的人！

Claude 3.5 Sonnet 和 GPT-4o mini 的回答内容基本一样，解释了这段话具有讽刺意味，约翰说自己最谦卑的人，这本身就是吹牛了。

不过 GPT-4o mini 的回答呈现更加一目了然，善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特点，也反应出了大模型竞技场的特点：大部分用户给出的问题都比较日常，不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内，大家都能回答上来。在这种情况下，通过不拒绝或者更漂亮的格式呈现，确实可以更好俘获裁判们的芳心。

有人就表示，对比来看，Claude 3.5 Sonnet 像一个聪明但是更严谨的人，它完全按照要求行事。GPT-4o mini 则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

比如有人举例，Claude 拒绝为他扮演角色，但是 ChatGPT 就愿意。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

当然这同时也反映出了一个问题：

是时候关注大模型拒答的问题了！

有人表示，真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型（Claude、Gemini 等），总是要精心设计每一个提示词，好心累。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

不过 GPT-4o minni 也不是没有缺点。在数学任务上，它的表现就差了很多。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

相较于 Claude，它的记忆力更差，过一会儿就会忘记上下文内容。以及 Claude 一次就能修好的 bug，换到 GPT-4o 那里，甚至需要 20 次、耗时 1 小时。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

但在竞技场评分中，GPT-4o mini 还是位居前列。

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

用过两个模型的盆友们，你们体感二者的差距在哪呢？

欢迎评论区分享经验~

参考链接：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1ed01p8/why_gpt4o_mini_beats_claude_35_sonnet_on_lmsys/

[2]https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles

[3]https://x.com/lmsysorg/status/1816838034270150984

[4]https://x.com/lmsysorg/status/1815855136318840970

本文来自微信公众号：量子位（ID：QbitAI），作者：明敏

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

3/21/2025 9:01:00 AM

AI在线

OpenAI 推出 AI 模型 GPT-4o mini，号称功能最强、成本效益最高的小模型

感谢据 CNBC 报道，OpenAI 今天发布了全新的 AI 模型“GPT-4o mini”，这是 OpenAI 为扩大其聊天机器人的使用范围所做的最新努力。OpenAI 方面称，此次新发布的产品将是“目前功能最强大、成本效益最高的小型模型”，并计划晚些时候将图像、视频和音频能力整合到该模型中。GPT-4o mini 同样也是 OpenAI 推动“多模态”（multimodality）技术发展的一部分，“多模态”是指在一个工具中提供多种类型的人工智能生成媒体，如文本、图像、音频和视频。据悉，GPT-4o mini

7/18/2024 10:30:26 PM

清源

阿尔特曼深夜发动价格战：OpenAI GPT-4o mini 全新小模型登场，GPT-3.5 退役

感谢AI在线网友刺客的线索投递！OpenAI，也开始进军小模型了。就在今天深夜，GPT-3.5 退场，全新发布的 GPT-4o mini，更小、性能更强，更重要的是 —— 更便宜！▲ GPT-3.5，再见！每百万个输入 token 15 美分，每百万个输出 token 60 美分，MMLU 得分 82%，性能超快。CEO Sam Altman 感慨道：通往智能的成本，竟是如此低廉。是的，如火如荼的大模型价格战，OpenAI 也入场了。Altman 回顾说：就在 2022 年，世界上最好的模型是还是 text-d

7/19/2024 10:36:47 AM

汪淼

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek 谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

GPT-4o mini 愿意接更多需求

情况一：Claude 3.5 Sonnet 拒绝回答。

情况二：细节差异

情况三：格式呈现差异

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI 推出 AI 模型 GPT-4o mini，号称功能最强、成本效益最高的小模型

阿尔特曼深夜发动价格战：OpenAI GPT-4o mini 全新小模型登场，GPT-3.5 退役