全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

自从春节期间的 deepseek 出圈后,各家大模型就开始疯狂内卷,真应了那句话,AI 一天,人间一年。 尤其是到了近一个月,AI 圈更是打的火热,各大 AI 大厂都在玩命更新,那在这些更新里到底哪个更好用呢? 不知道大家能不能清楚,反正我是有点分不清,所以这个假期花了几天时间,实验对比了一圈,最终发现谷歌最新的模型 Gemini 2.5 Pro 成了最好用的。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

自从春节期间的 deepseek 出圈后,各家大模型就开始疯狂内卷,真应了那句话,AI 一天,人间一年。尤其是到了近一个月,AI 圈更是打的火热,各大 AI 大厂都在玩命更新,那在这些更新里到底哪个更好用呢?不知道大家能不能清楚,反正我是有点分不清,所以这个假期花了几天时间,实验对比了一圈,最终发现谷歌最新的模型 Gemini 2.5 Pro 成了最好用的。

先简单介绍下这个模型,Gemini 2.5 Pro 是谷歌在 3 月 25 号发布的一个多模态模型,它能接受输入音频、图片、视频和文本,是谷歌当前最先进的思考型模型,能够解决各种复杂问题。

它在各种专业评分上几乎都是第一,比如在 LMArena 排行榜(衡量人类偏好)上就遥遥领先,几乎是全模态第一。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

Gemini 2.5 Pro 还在常见的编码、数学和科学基准测试上也表现抢眼。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

当然,只看评分其实没啥概念,只知道很强,但我们普通用户其实更关注的是到底能用在哪些地方,好不好用?

一、怎么用上它?

和上次我写的教程《谷歌新出的生图模型,没想到把 ComfyUI 的学习难度瞬间降低了》一样,它的使用同样简单,最近谷歌确实有点猛啊,快速出了很多好用的模型,而且都给咱们免费用。

先打开官方这个链接(需要魔法) :https://aistudio.google.com/prompts/new_chat

然后选择 Gemini 2.5Pro Preview 03-25 这个模型

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

到这,你就已经可以免费使用上这个目前地表最强的 AI 思考模型了。

二、可以用它做啥?

它的优势有很多:超长记忆能力,目前能记住 100 万个 token,地表最强;它能看懂视频,图片,听懂音频等等,几乎全能。

1. 能读懂记住超长文本文件

看下最新的测试结果,谷歌最新的这个模型目前在长文本理解方面,完全没有对手。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

它现在能记住 100 万个 Token 长度,什么概念呢?

想象一下,传统的 AI 模型像一个记忆力有限的学生,一次只能记住几页书的内容、而 Gemini 2.5 Pro 就像一位博学的智者,能够一口气“读”完并深刻理解一部巨著,比如《战争与和平》全集(约 70 万 Token),甚至还有余力。

这不仅仅是能“装下”更多信息,关键在于理解和关联。

在日常工作中,经常需要同时读懂大量文档,并且每个文档相互之间还需要关联上,这种长文本的能力就非常需要。我们在实际工作中的对话往往是非常长的,聊到后面忘记前面是现在很多 AI 的通病。

假如你是一个项目经理,接手了一个历史悠久、文档堆积如山的大型软件项目。里面有需求文档、设计稿、会议纪要、邮件往来、甚至几万行历史代码。你想快速了解项目的来龙去脉、关键决策点和潜在风险。

你可以将这些文档(总计可能几十万 Token)一次性“喂”给 Gemini 2.5 Pro。然后你可以直接提问:

“总结一下项目初期最重要的 3 个技术选型决策及其原因。”

“根据所有会议纪要,用户反馈最集中的功能模块是哪个?相关的讨论出现在哪些文档的哪部分?”

它马上就能给你来个总结,我这里就不放示例了,你可以自己去试试看,非常有效。

再比如我把我过往写的部分文章,一次性都丢给 Gemini 2.5 Pro,里面有图有文字,希望它帮我分析出我最喜欢用的词语频次,并由此推测我的文风是什么样的?适合写什么类型的内容。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

这是它给出的结果,可以说非常准确了。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

对比 GPT4.5,效果立马高下立判。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

2. 听懂音频文件,总结录音内容成文字

Gemini 2.5 Pro 不仅擅长处理文本,还能看图,看视频,听声音,并且得益于能记住超长的上下文,这种能力被提升到了新的高度。

我之前就经常苦恼于录了一段长录音,然后找音频转换文本的软件,发现大多数收费都非常贵。现在用谷歌 Gemini,不仅免费还能直接帮我总结形成文字给我,非常实用。

上传音频文件,然后直接写提示词:“帮我把这一段录音文件转换为文字稿,并总结出其中的关键内容”

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

它能基于录音的内容分析出的每一句文字内容,最后还帮我做了总结,整个过程大概就花了 3 分钟就搞定了,非常效率。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

3. 看懂视频,找出视频中的关键信息

可以上传一段本地拍的视频,也可以直接用网上的一个视频链接(目前仅支持 youtube),它就能直接分析出视频里的所有内容,甚至理解视频中每一帧的画面内容,这个能力真的太有用了。尤其像我习惯看长视频教程的人,对我来说非常实用。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

分析完成后,它会告诉我总结之后的结果

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

对于能解析本地拍的视频,这个能力其实非常有用,比如在平时自己拍的一段视频,希望能分析出视频中自己的情绪变化。

比如还可以把 B 站的视频下载下来,通过分析弹幕上的文本了解观众对哪个功能的讨论最热烈?主要观点有哪些?针对视频中的哪部分内容,什么画面带来的情绪变化等等。

比如还可以问“发布会上的老板是在哪个时间点开始介绍新产品?他强调了哪些核心卖点?” ,顺便还让它总结一下 35 分钟到 45 分钟这段 Q&A 环节的主要问题和回答。 甚至还能让它总结出视频中人物一共鼓掌了多少次。

它能像人一样“看”视频,理解画面内容、识别语音、定位关键帧,甚至进行一定的情感分析,我们不需要再手动拉进度条或单独做文字记录了。

三、它还强在哪些地方?

如果以上这些多模态能力,还不足以震撼到你我的话。更强悍的是当你实际用的时候,你就会发现,它真的比其他模型更厉害,没有对比就没有伤害。

比如就单纯在问答这块的能力,我们来对比下试试。

我以星球里一位星友的提问为例

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

这是 deepseek 的回答:

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

这是谷歌 Gemini 2.0Pro 的回答。对比看的话,Gemini 更能抓住问题的重点,它似乎就是能读懂你想问的。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

我们在用其他像 GPT 和 deepseek 之类的 AI,你可能会发现,它们往往会顺着你的意思去回答,但 Gemini 会有自己的明确见解,能告诉你就要怎么做才好,能给出明确的建议,这是一个很好用的地方。因为我们通常是要找建议,还不只是看它帮我们分析,然后又不给结论。

比如再举一个星友的提问,也是比较常见的问题。

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

先看下 deepseek 的回答

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

再看下 Gemini 的回答

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

对比看下来,我发现 Gemini 的回答是更有人味的,更像是我自己的在回答,和朋友聊天一样。

对于这一点来说,其实如果你自己不去真正用下的话,估计很难体会到,但我自己近段时间在用的时候是真切的体会到它的聪明、理性,对比其他工具来说,更加顺畅好用,关键还免费。

所以,有了一个这样能识别多模态,好用实用的 AI 工具,赶紧用起来吧。

我在想,在如今的 AI 时代,最核心的不是去关注到这些 AI 的发展,关注到它每天的更新变化,更重要的是要真的去把它们用起来,只有真正用到实际生产中,才能让 AI 给自己带来真正的能量。

欢迎关注作者的微信公众号:「彩云译设计」

全能且实用!实战测评谷歌最新模型Gemini 2.5 Pro

相关资讯

最贵!OpenAI重磅推出升级版AI模型o1-pro,生成价格是o1的十倍

人工智能研究公司OpenAI近日宣布,已在其开发者API中推出一款名为o1-pro的全新“推理”AI模型。 据OpenAI透露,o1-pro相较于其现有模型o1,投入了更多的计算资源,旨在提供“始终如一的更优响应”。 然而,这款高性能模型目前仅面向部分特定的开发者开放——具体而言,是那些在OpenAI API服务上至少消费过5美元的用户。

自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

全面超越GPT-4?一文详解Google新模型Gemini

大家好我是花生~ 最近 Google 发布了一个新的多模态大模型 Gemini,在 AI 模型领域掀起了一轮新的讨论热潮,风头一时间甚至盖过了 GPT-4。那么 Gemini 的具体功能有哪些,相比其他大模型又有何特点呢?今天我们就一起来看看。 了解 GPT-4:一、 Gemini 的功能 Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界,并