评测

智源发布FlagEval“百模”评测结果丈量模型生态变局

2024年12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。相较于今年5月的模型能力全方位评估，本次智源评测扩展、丰富、细化了任务解决能力内涵，新增了数据处理、高级编程和工具调用的相关能力与任务；首次增加了面向真实金融量化交易场景的应用能力评估，测量大模型的收益优化和性能优化等能力；首次探索基于模型辩论的对比评估方式，对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。智源评测发现，2024年下半年大模型发展更聚焦综合能力提升与实际应用。

12/19/2024 6:00:00 PM

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。图：豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）FlagEval 大

6/19/2024 9:30:00 AM

新闻助手