AIGC宇宙 AIGC宇宙

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

作者:故渊
2024-05-21 09:03
谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5

谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。

根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

谷歌官方分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 解决的,而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。IT之家附上相关截图如下:

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

除了问题之外,谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%,在对 256 个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

相关标签:

相关资讯

自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/22/2024 4:31:00 PM
机器之心

M1芯片搞数据科学好使吗?5种基准测试给你答案

最近 M1 芯片爆火,它是否适用于数据科学?在常用基准上测试一下就知道了。
2/10/2021 2:51:00 PM
机器之心

AnchorDx通过基于深度学习的连续向量表示甲基化区域

编辑 | 萝卜皮基准医疗(AnchorDx)成立于 2015 年,是一家国际领先的采用甲基化高通量测序进行癌症早筛早诊产品开发的公司。创始人范建兵博士是基因检测领域的国际领军人物,拥有近 30 年从事人类基因组学、基因芯片(Microarrays)及高通量测序技术开发的经验。基准医疗是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业,并自主构建了全球最大的中国人群癌症早期甲基化数据库。自创立以来,基准医疗一直致力于自主开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产品,产品管线覆盖了包括肺癌、
12/30/2021 12:50:00 PM
ScienceAI