新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

8月2日,lmsys官方在推特发布一则消息,恭喜DeepMind研发的Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第一。 这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来,OpenAI第二次让出Chatbot Arena的Overall ranking宝座。 Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena测试一周后。

8月2日,lmsys官方在推特发布一则消息,恭喜DeepMind研发的Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena排名登顶,超越GPT 4o和Claude-3.5夺得第一。

这是继今年3月Claude 3 “超大杯”Opus版本短暂超越GPT-4以来,OpenAI第二次让出Chatbot Arena的Overall ranking宝座。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

Gemini 1.5 Pro 实验版 (0801)在Chatbot Arena测试一周后。获得了超过12,000个社区投票,在Chatbot Arena和Vision Leaderboard排名上均取得了第一名的好成绩。之前说GPT-4o有刷分技巧,现在看起来Gemini 1.5 Pro可能也学到了这个技巧呢。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

Gemini 1.5 Pro 实验版(0801)不仅在综合表现上极为突出,在各个细分领域上也有着出色的表现。它在数学方面排名前三,指令遵循排名前二,编码排名前五,硬提示(英语)排名前五。

Gemini 1.5 Pro 实验版(0801)具有强大的多语言能力,在中文、日语、德语、俄语方面均表现第一。

从总体胜率图上,也能看出Gemini 1.5 Pro 实验版 (0801)实力强劲,对阵 GPT-4o 的胜率为 54%,对阵 Claude-3.5-Sonnet 的胜率为 59%。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

前OpenAI的开发者,现Google AI Studio的产品负责人Logan Kilpatrick火速转发,向大家宣布Gemini 1.5 Pro 实验版(0801)目前在 LMSYS 的文本和多模式排名中均位居第一的好消息。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

DeepMind的CEO Demis Hassabis也转发了这条消息,祝贺Gemini 1.5 Pro 实验版(0801)能够在极具竞争力的榜单中拿下第一,并且宣布这一版本的已经可以在 AI Studio上进行试用。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

带领研发Gemini的Jeff Dean也随后转发,对此次实验版本的Gemini 1.5 Pro突破1300+elo分数拿下排名第一的好消息感到非常自豪,也很期待未来能看到其他更好的模型。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

听闻这则消息,其他从业人员也纷纷发来祝贺。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

也有不少人分享自己的试用体验。大神elvis对在聊天机器人领域超越了 GPT-4o 和 Claude 3.5 Sonnet的Gemini 1.5 Pro非常感兴趣。elvis分享了自己的测试全过程视频,并总结道,Gemini 1.5 Pro强大的图像和PDF提取能力给他留下了深刻的印象,Gemini 1.5 Pro有着和GPT-4o不相上下的视觉能力,也有Claude 3.5 Sonnet接近的代码生成及PDF理解/推理能力。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

有人认为Gemini 1.5 Pro在解决高级数学难题方面表现相当不错。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

也有人说Gemini 1.5 Pro在图像识别植物和动物方面做得确实要比GPT 4o更好。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

也有更多的人在期待Gemini 1.5 Pro这一版本的正式上线,希望能够API实现Gemini 1.5 Pro的实际运用。

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

新王登基,Gemini 1.5 Pro再度更新,超越GPT 4o和Claude-3.5

相关资讯

91.1% 准确率,性能远超 GPT-4 系列模型,谷歌推出多模态医学大模型 Med-Gemini

编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战:需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力,为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势,谷歌的研究人员推出了 Med-Gemini,这是一个功能强大的多模态模型系列,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini,在其中 10 项上建立了新的最先进(S

谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)今天(8 月 28 日)在 X 平台发布推文,宣布推出 3 款 Gemini 实验性模型。AI在线附上谷歌本次推出的 3 款实验性 Gemini AI 模型如下:Gemini 1.5 Flash-8BGemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80 亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。Gemini 1.5 Pro Exp-0827主要增强编程、复杂

AI 聊天机器人大战升温:谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起,谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕,这家科技巨头发布了一段视频,展示了疑似经过升级的 Gemini 聊天机器人。视频中,Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的,视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问,并准确地提供信息。当被问到正在进行的布置工作时,Gemini 正确识别出这是为一个重要活动做的准备。 整个对话过程自然