声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

2024-05-21 09:03

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。

根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多，在其他基准测试中的得分也有所提高。

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌官方分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 解决的，而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确答案。IT之家附上相关截图如下：

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

除了问题之外，谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明，在所有五项基准测试成绩中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%，在对 256 个解决方案进行采样并选择一个候选答案时（rm@256），准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/22/2024 4:31:00 PM

机器之心

M1芯片搞数据科学好使吗？5种基准测试给你答案

最近 M1 芯片爆火，它是否适用于数据科学？在常用基准上测试一下就知道了。

2/10/2021 2:51:00 PM

机器之心

AnchorDx通过基于深度学习的连续向量表示甲基化区域

编辑 | 萝卜皮基准医疗（AnchorDx）成立于 2015 年，是一家国际领先的采用甲基化高通量测序进行癌症早筛早诊产品开发的公司。创始人范建兵博士是基因检测领域的国际领军人物，拥有近 30 年从事人类基因组学、基因芯片（Microarrays）及高通量测序技术开发的经验。基准医疗是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业，并自主构建了全球最大的中国人群癌症早期甲基化数据库。自创立以来，基准医疗一直致力于自主开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产品，产品管线覆盖了包括肺癌、

12/30/2021 12:50:00 PM

ScienceAI

资讯热榜

50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍 OpenAI史上最硬核技术播客！系统揭秘GPT4.5诞生，已进入数据受限时代！小哥亲述大模型修bug血泪史；还有一个重磅开源消息 OpenAI 启动先锋计划，旨在重塑 AI 模型评分体系 OpenAI 宣布 ChatGPT 自 4 月 30 日起停用 GPT-4 模型，全面升级至 4o 版本

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

相关资讯

自缘身在最高层？OpenAI o1 pro竞赛级评测结果新鲜出炉

M1芯片搞数据科学好使吗？5种基准测试给你答案

AnchorDx通过基于深度学习的连续向量表示甲基化区域