GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

为啥 GPT-4o mini 能登顶大模型竞技场??原来是 OpenAI 会刷分呀。这两天,lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一,把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了,大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明,表示大家别只看总榜,还要更关注细分领域的情况。也没能让大家满意,不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于,官方晒出了一份完整数据,展示了 GPT-4o mini 参与的 1000

为啥 GPT-4o mini 能登顶大模型竞技场??原来是 OpenAI 会刷分呀。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

这两天,lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一,把 Claude 3.5 Sonnet 甩在身后

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

结果网友炸锅了,大家凭体感觉得这不可能。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

哪怕后面 lmsys 做过一次声明,表示大家别只看总榜,还要更关注细分领域的情况。也没能让大家满意,不少人觉得 lmsys 就是从 OpenAI 那收钱了。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

终于,官方晒出了一份完整数据,展示了 GPT-4o mini 参与的 1000 场 battle,包括在不同语言下和不同模型的 PK 情况。

所有人现在都能查看这些结果。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

大家仔细一瞅,找到了问题所在,GPT-4o mini 能赢 Claude 3.5 Sonnet 靠的是三大关键

拒绝回答次数更少

更详细的回答、总是愿意提供额外信息

回答格式更清晰明了

这…… 确实有点道理啊!

网友表示,自己在竞技场中如果遇到有的模型拒绝回答,他就会觉得模型弃权比赛,因此更愿意判另一个模型胜出。而且更清楚的回答格式,也能让人更容易找到信息。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

这不就和老师判卷是一个道理么?书写工整、格式清晰或者“多写点总没错”的卷子,总是能多捞点分数……OpenAI 原来是拿捏住了人类的心理啊。

实际上,在 GPT-4o mini 刚刚发布时,奥特曼就暗示了这次特意的优化:

大家一定会非常非常喜欢用这个新模型。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

GPT-4o mini 愿意接更多需求

先来看几个 GPT-4o mini 取胜的典型例子:

情况一:Claude 3.5 Sonnet 拒绝回答。

提示词:

给我所有的韩国外交文件。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

首先直观看下双方的回答,Claude 3.5 Sonnet 更加简短,没有用加粗等格式。GPT-4o mini 的答案长度是它的 2 倍长。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

具体回答上,Claude 3.5 Sonnet 的答案一上来先道歉,表示自己作为一个 AI 大模型,无法获取相关文件,所以提供了一些用户可能获取相关资料的渠道。

最后还提醒用户,这些文件可能是机密或不公开的,如果想要获取更多信息请与相关机构联系。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

GPT-4o mini 没有说自己无能为力,而是从公开资料中搜集了从古至今相关的韩国外交文件,并告诉用户从学术期刊、书籍专著等渠道可以搜集资料。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

最后它表示,想要彻底了解韩国外交文件必须查阅各种资料。如果想要了解更多,还可以继续问它。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

情况二:细节差异

提示词:

在 git 中,是否有可能还原由特定提交引入的更改,即使它不是最近的提交?

回答这个问题时,GPT-4o mini 和 Claude 3.5 Sonnet 都回答正确,但是前者给出了更多细节以及具体举例。

Claude 3.5 Sonnet 的回答可读性也相对较差。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

情况三:格式呈现差异

提示词:

简对约翰说,约翰,你为什么总是这么自夸? 他回答说,什么?我这辈子从没吹嘘过。事实上,我是世界上最谦卑的人,也许是有史以来最谦卑的人!

Claude 3.5 Sonnet 和 GPT-4o mini 的回答内容基本一样,解释了这段话具有讽刺意味,约翰说自己最谦卑的人,这本身就是吹牛了。

不过 GPT-4o mini 的回答呈现更加一目了然,善用小标题和加粗格式。把整个回答分成了初步结论、分析回答、幽默原因以及总结四个部分。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

这几个示例不仅展现了 GPT-4o mini 和 Claude 3.5 Sonnet 各自的回答特点,也反应出了大模型竞技场的特点:大部分用户给出的问题都比较日常,不是那种复杂的数学、推理、编程问题。

这意味着这些问题基本上都在大模型们的射程范围内,大家都能回答上来。在这种情况下,通过不拒绝或者更漂亮的格式呈现,确实可以更好俘获裁判们的芳心。

有人就表示,对比来看,Claude 3.5 Sonnet 像一个聪明但是更严谨的人,它完全按照要求行事。GPT-4o mini 则像是一个讨人喜欢、总是多干点儿事、更愿意接受不同需求的人

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

比如有人举例,Claude 拒绝为他扮演角色,但是 ChatGPT 就愿意。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

当然这同时也反映出了一个问题:

是时候关注大模型拒答的问题了!

有人表示,真的很开心看到大模型因为过高道德边界而导致分数不高的情况。之前他为了用好这些道德感强的大模型(Claude、Gemini 等),总是要精心设计每一个提示词,好心累。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

不过 GPT-4o minni 也不是没有缺点。在数学任务上,它的表现就差了很多。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

相较于 Claude,它的记忆力更差,过一会儿就会忘记上下文内容。以及 Claude 一次就能修好的 bug,换到 GPT-4o 那里,甚至需要 20 次、耗时 1 小时。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

但在竞技场评分中,GPT-4o mini 还是位居前列。

GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示

用过两个模型的盆友们,你们体感二者的差距在哪呢?

欢迎评论区分享经验~

参考链接:

[1]https://www.reddit.com/r/LocalLLaMA/comments/1ed01p8/why_gpt4o_mini_beats_claude_35_sonnet_on_lmsys/

[2]https://huggingface.co/spaces/lmsys/gpt-4o-mini_battles

[3]https://x.com/lmsysorg/status/1816838034270150984

[4]https://x.com/lmsysorg/status/1815855136318840970

本文来自微信公众号:量子位(ID:QbitAI),作者:明敏

相关资讯

OpenAI 推出 AI 模型 GPT-4o mini,号称功能最强、成本效益最高的小模型

感谢据 CNBC 报道,OpenAI 今天发布了全新的 AI 模型“GPT-4o mini”,这是 OpenAI 为扩大其聊天机器人的使用范围所做的最新努力。OpenAI 方面称,此次新发布的产品将是“目前功能最强大、成本效益最高的小型模型”,并计划晚些时候将图像、视频和音频能力整合到该模型中。GPT-4o mini 同样也是 OpenAI 推动“多模态”(multimodality)技术发展的一部分,“多模态”是指在一个工具中提供多种类型的人工智能生成媒体,如文本、图像、音频和视频。据悉,GPT-4o mini

阿尔特曼深夜发动价格战:OpenAI GPT-4o mini 全新小模型登场,GPT-3.5 退役

感谢AI在线网友 刺客 的线索投递!OpenAI,也开始进军小模型了。就在今天深夜,GPT-3.5 退场,全新发布的 GPT-4o mini,更小、性能更强,更重要的是 —— 更便宜!▲ GPT-3.5,再见!每百万个输入 token 15 美分,每百万个输出 token 60 美分,MMLU 得分 82%,性能超快。CEO Sam Altman 感慨道:通往智能的成本,竟是如此低廉。是的,如火如荼的大模型价格战,OpenAI 也入场了。Altman 回顾说:就在 2022 年,世界上最好的模型是还是 text-d

GPT-4o mini一手测评:懂得不多,但答得极快

GPT-4o mini主打一个字「快」。昨晚,OpenAI 突然上线新模型 GPT-4o mini, 声称要全面取代 GPT-3.5 Turbo。在性能方面,GPT-4o mini 在 MMLU 上的得分为 82%,在 LMSYS 排行榜的聊天方面分数优于 GPT-4。在价格方面,GPT-4o mini 比之前的 SOTA 模型便宜一个数量级,商用价格是每百万输入 token 15 美分,每百万输出 token 60 美分,比 GPT-3.5 Turbo 便宜 60% 以上。OpenAI 表示,ChatGPT 的免