FlagEval

智源更新大模型排行榜:豆包大模型“客观评测”排名国产第一

6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过 GPT-4o 和 GPT-4。图:豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)FlagEval 大
  • 1