自从春节期间的 deepseek 出圈后,各家大模型就开始疯狂内卷,真应了那句话,AI 一天,人间一年。尤其是到了近一个月,AI 圈更是打的火热,各大 AI 大厂都在玩命更新,那在这些更新里到底哪个更好用呢?不知道大家能不能清楚,反正我是有点分不清,所以这个假期花了几天时间,实验对比了一圈,最终发现谷歌最新的模型 Gemini 2.5 Pro 成了最好用的。
先简单介绍下这个模型,Gemini 2.5 Pro 是谷歌在 3 月 25 号发布的一个多模态模型,它能接受输入音频、图片、视频和文本,是谷歌当前最先进的思考型模型,能够解决各种复杂问题。
它在各种专业评分上几乎都是第一,比如在 LMArena 排行榜(衡量人类偏好)上就遥遥领先,几乎是全模态第一。
Gemini 2.5 Pro 还在常见的编码、数学和科学基准测试上也表现抢眼。
当然,只看评分其实没啥概念,只知道很强,但我们普通用户其实更关注的是到底能用在哪些地方,好不好用?
一、怎么用上它?
和上次我写的教程《谷歌新出的生图模型,没想到把 ComfyUI 的学习难度瞬间降低了》一样,它的使用同样简单,最近谷歌确实有点猛啊,快速出了很多好用的模型,而且都给咱们免费用。
先打开官方这个链接(需要魔法) :https://aistudio.google.com/prompts/new_chat
然后选择 Gemini 2.5Pro Preview 03-25 这个模型
到这,你就已经可以免费使用上这个目前地表最强的 AI 思考模型了。
二、可以用它做啥?
它的优势有很多:超长记忆能力,目前能记住 100 万个 token,地表最强;它能看懂视频,图片,听懂音频等等,几乎全能。
1. 能读懂记住超长文本文件
看下最新的测试结果,谷歌最新的这个模型目前在长文本理解方面,完全没有对手。
它现在能记住 100 万个 Token 长度,什么概念呢?
想象一下,传统的 AI 模型像一个记忆力有限的学生,一次只能记住几页书的内容、而 Gemini 2.5 Pro 就像一位博学的智者,能够一口气“读”完并深刻理解一部巨著,比如《战争与和平》全集(约 70 万 Token),甚至还有余力。
这不仅仅是能“装下”更多信息,关键在于理解和关联。
在日常工作中,经常需要同时读懂大量文档,并且每个文档相互之间还需要关联上,这种长文本的能力就非常需要。我们在实际工作中的对话往往是非常长的,聊到后面忘记前面是现在很多 AI 的通病。
假如你是一个项目经理,接手了一个历史悠久、文档堆积如山的大型软件项目。里面有需求文档、设计稿、会议纪要、邮件往来、甚至几万行历史代码。你想快速了解项目的来龙去脉、关键决策点和潜在风险。
你可以将这些文档(总计可能几十万 Token)一次性“喂”给 Gemini 2.5 Pro。然后你可以直接提问:
“总结一下项目初期最重要的 3 个技术选型决策及其原因。”
“根据所有会议纪要,用户反馈最集中的功能模块是哪个?相关的讨论出现在哪些文档的哪部分?”
它马上就能给你来个总结,我这里就不放示例了,你可以自己去试试看,非常有效。
再比如我把我过往写的部分文章,一次性都丢给 Gemini 2.5 Pro,里面有图有文字,希望它帮我分析出我最喜欢用的词语频次,并由此推测我的文风是什么样的?适合写什么类型的内容。
这是它给出的结果,可以说非常准确了。
对比 GPT4.5,效果立马高下立判。
2. 听懂音频文件,总结录音内容成文字
Gemini 2.5 Pro 不仅擅长处理文本,还能看图,看视频,听声音,并且得益于能记住超长的上下文,这种能力被提升到了新的高度。
我之前就经常苦恼于录了一段长录音,然后找音频转换文本的软件,发现大多数收费都非常贵。现在用谷歌 Gemini,不仅免费还能直接帮我总结形成文字给我,非常实用。
上传音频文件,然后直接写提示词:“帮我把这一段录音文件转换为文字稿,并总结出其中的关键内容”
它能基于录音的内容分析出的每一句文字内容,最后还帮我做了总结,整个过程大概就花了 3 分钟就搞定了,非常效率。
3. 看懂视频,找出视频中的关键信息
可以上传一段本地拍的视频,也可以直接用网上的一个视频链接(目前仅支持 youtube),它就能直接分析出视频里的所有内容,甚至理解视频中每一帧的画面内容,这个能力真的太有用了。尤其像我习惯看长视频教程的人,对我来说非常实用。
分析完成后,它会告诉我总结之后的结果
对于能解析本地拍的视频,这个能力其实非常有用,比如在平时自己拍的一段视频,希望能分析出视频中自己的情绪变化。
比如还可以把 B 站的视频下载下来,通过分析弹幕上的文本了解观众对哪个功能的讨论最热烈?主要观点有哪些?针对视频中的哪部分内容,什么画面带来的情绪变化等等。
比如还可以问“发布会上的老板是在哪个时间点开始介绍新产品?他强调了哪些核心卖点?” ,顺便还让它总结一下 35 分钟到 45 分钟这段 Q&A 环节的主要问题和回答。 甚至还能让它总结出视频中人物一共鼓掌了多少次。
它能像人一样“看”视频,理解画面内容、识别语音、定位关键帧,甚至进行一定的情感分析,我们不需要再手动拉进度条或单独做文字记录了。
三、它还强在哪些地方?
如果以上这些多模态能力,还不足以震撼到你我的话。更强悍的是当你实际用的时候,你就会发现,它真的比其他模型更厉害,没有对比就没有伤害。
比如就单纯在问答这块的能力,我们来对比下试试。
我以星球里一位星友的提问为例
这是 deepseek 的回答:
这是谷歌 Gemini 2.0Pro 的回答。对比看的话,Gemini 更能抓住问题的重点,它似乎就是能读懂你想问的。
我们在用其他像 GPT 和 deepseek 之类的 AI,你可能会发现,它们往往会顺着你的意思去回答,但 Gemini 会有自己的明确见解,能告诉你就要怎么做才好,能给出明确的建议,这是一个很好用的地方。因为我们通常是要找建议,还不只是看它帮我们分析,然后又不给结论。
比如再举一个星友的提问,也是比较常见的问题。
先看下 deepseek 的回答
再看下 Gemini 的回答
对比看下来,我发现 Gemini 的回答是更有人味的,更像是我自己的在回答,和朋友聊天一样。
对于这一点来说,其实如果你自己不去真正用下的话,估计很难体会到,但我自己近段时间在用的时候是真切的体会到它的聪明、理性,对比其他工具来说,更加顺畅好用,关键还免费。
所以,有了一个这样能识别多模态,好用实用的 AI 工具,赶紧用起来吧。
我在想,在如今的 AI 时代,最核心的不是去关注到这些 AI 的发展,关注到它每天的更新变化,更重要的是要真的去把它们用起来,只有真正用到实际生产中,才能让 AI 给自己带来真正的能量。
欢迎关注作者的微信公众号:「彩云译设计」