模型 - AIGC宇宙

Voyage-3 系列嵌入式 AI 模型登场：1/2.2 成本、1/3 嵌入维度下性能超 OpenAI v3 Large 模型 7.55%

科技媒体 marktechpost 昨日（9 月 27 日）发布博文，报道称 Voyage AI 公司推出了 Voyage-3 和 Voyage-3-Lite 两个嵌入式（Embedding）模型。这两个模型在技术、法律、金融、多语言应用和长文本理解等方面，均表现出超出同类模型的优势，在保持较小模型规模和较低的资源消耗情况下，为开发者提供更高效、更易于集成的解决方案。AI在线援引 Voyage AI 官方数据，在技术文档、代码、法律、金融、网页内容、多语言数据集、长文档和对话数据等方面，Voyage-3 以 1/2

OpenAI o1 在医学领域的初步研究，我们离 AI 医生更近了吗？

编辑 | 紫罗大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力，突破了我们在学习和认知方面的知识界限。最新模型 OpenAI 的 o1 脱颖而出，成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。虽然 o1 在一般任务中表现良好，但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内，例如知识、推理或安全，这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员评估了 OpenAI 的 o1 模型在医

端侧最强开源 AI 模型 Llama 3.2 登场：可在手机运行，从 1B 纯文本到 90B 多模态，挑战 OpenAI 4o mini

Meta 公司昨日（9 月 25 日）发布博文，正式推出了 Llama 3.2 AI 模型，其特点是开放和可定制，开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模态视觉和轻量级模型，代表了 Meta 在大型语言模型（LLMs）方面的最新进展，在各种使用案例中提供了更强大的功能和更广泛的适用性。其中包括适合边缘和移动设备的中小型视觉 LLMs （11B 和 90B），以及轻量级纯文本模型（1B 和 3B），此外提供预训练和指令微调（instruction-tuned）版本。AI在线附

英伟达发布 Llama-3.1-Nemotron-51B AI 模型：创新神经架构搜索等技术让单 H100 GPU 运行 4 倍以上负载

英伟达 9 月 23 日发布博文，宣布推出 Llama-3.1-Nemotron-51B AI 模型，源自 Meta 公司的 Llama-3.1-70B，不过创新使用神经架构搜索（NAS）方法，建立了一个高度准确和高效的模型。Llama-3.1-Nemotron-51B 简介Llama-3.1-Nemotron-51B AI 模型基于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型，共有 510 亿参数。该 AI 模型主要采用了神经架构搜索（NAS）技术微调，平衡性能和效率，在高工作负

OpenAI o1 AI 模型 PlanBench 规划能力实测：准确率 97.8%，远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来自亚利桑那州立大学的科研团队利用 PlanBench 基准，测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步，但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年，用于评估人工智能系统的规划能力，包括 600 个来自 Blocksworld 领域的任务，其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blocksworld 任务中，OpenAI 的 o1 模型准确率达到 97.8%，大大超过了之前的最佳语言模型 LLaMA

谷歌 Gemini 1.5 AI 模型再进化：成本更低、性能更强、响应更快

科技媒体 The Decoder 昨日（9 月 24 日）发布博文，报道谷歌升级旗下 Gemini 1.5 AI 模型，推出了 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002，相比较此前版本成本更低、性能更强、响应更快。成本更低谷歌下调了 token 输入和输出费用，Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 最高降幅 50%，提高了两种模型的速率限制，并减少了延迟。新定价于 2024 年 10 月 1 日生效。性能更强AI在线援引新闻稿内

OpenAI 首款具备“推理”能力模型 o1 现已向企业 / 教育用户开放，每周最多使用 50 次

OpenAI 公司旗下首款具备“推理”能力的模型 o1 和 o1-mini 现已向企业版（Enterprise）和教育版（Edu）用户开放访问权限，用户每周最多可输入 50 条消息。据介绍，OpenAI o1 系列模型具有更高的理解能力，与传统模型不同，o1 系列模型在回答问题之前会进行深度思考，生成内在的思维链后再给出答案，因此系列模型能够处理比之前模型更复杂的任务，特别擅长解决科学、编程和数学领域的难题。OpenAI 指出，尽管目前 GPT-4o 仍是大多数任务的最佳选择，但 o1 系列在处理复杂、问题解决导向

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜：数学能力碾压 Claude 和谷歌 Gemini 模型，o1-mini 并列第一

o1 模型发布 1 周，lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时，为了满足大家对模型「IOI 金牌水平」的好奇心，OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1，终于迎来了 lmsys 竞技场的测评结果。不出意外，o1-preview 在各种领域绝对登顶，超过了最新版的 GPT-4o，在数学、困难提示和编码领域表现出色；而 o1-mini 虽然名字中自带「mini」，但也和最新版的 GPT-4o 并列综合排名第二，困难提示、编码、数学

OpenAI 再成“榜一大哥”：o1-preview AI 模型更轻松驾驭数学、编程等任务

科技媒体 The Decoder 昨日（9 月 19 日）发布博文，报道称在聊天机器人竞技场（Chatbot Arena）上，OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台，它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示，o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示，o1-preview 和 o1

阿尔特曼称 o1 仅仅是“推理模型的 GPT-2”，黄仁勋表示“给你加速 50 倍”

AI 界最有影响力的两个人，同时出现在一场活动：OpenAI CEO 阿尔特曼，暗示了 o1 满血版将在接下来几个月发布。英伟达创始人黄仁勋，则表示新一代 Blackwell 架构 GPU 能给 o1 推理提速 50 倍。阿尔特曼把 o1 在推理模型里的地位比作语言模型中的 GPT-2 阶段。几年后人们将看到“推理模型的 GPT-4”，不过最近几个月就会有重大改进，新范式的进步曲线非常陡峭。L2“推理者”与 L1“聊天机器人”非常不同，大家还没找到该怎么用这些模型，我们也没决定该为 App 继续添加什么功能。不过最

易用性对齐 vLLM，推理效率提升超200%，这款国产加速框架什么来头？

一、行业背景2022 年 10 月，ChatGPT 的问世引爆了以大语言模型为代表的的 AI 浪潮，全球科技企业纷纷加入大语言模型的军备竞赛，大语言模型的数量、参数规模及计算需求呈指数级提升。大语言模型（Large Language Model，简称 LLM 大模型）指使用大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。大模型通常包含百亿至万亿个参数，训练时需要处理数万亿个 Token，这对显卡等算力提出了极高的要求，也带来了能源消耗的激增。据斯坦福人工智能研究所发布的《2023 年 AI

陶哲轩提前实测满血版 OpenAI o1：能当研究生使唤

原来早在 8 月份，陶哲轩就已经用上了 OpenAI o1。还是现在大家都用不上的满血版本（眼泪不争气地从嘴角流出来）。提前批大佬是怎么玩最新天花板的呢？他向 o1 模型提出一个措辞模糊的数学问题，发现它竟然能成功识别出克莱姆定理。而且答案是“完全令人满意的”那种。当然，陶哲轩还做了一些其它测试，测下来总体体验就是：比以前的模型更牛，多堆点提示词表现还不错，但仍然会犯不小的错误，也没有产生啥自己的思想。陶哲轩是这样形容的：这种感觉，就像给一个平庸无奇但又有点小能力的研究生提供建议。不过，这已经比以前的模型有所改进，

OpenAI o1 非 GPT-4o 直接进化，在成本与性能上妥协

9 月 14 日消息，OpenAI 已经推出了新模型 OpenAI o1 的两大变体 ——o1-preview 与 o1-mini，这两款模型都有许多值得深入探讨的内容。人工智能专家西蒙・威利森（Simon Willison）专门发文，深入剖析了这些新模型背后的设计理念与实现细节，揭示了它们在技术上的独特优势与不足。威利森表示，o1 并不是简单的 GPT-4o 直接升级版，而是在强化“推理”能力的同时，做出了成本与性能上的权衡。1. 训练思维链OpenAI 的声明是一个很好的起点：“我们研发了一系列新型人工智能模型

o1 模型完整思维链成 OpenAI 头号禁忌，问多了等着封号吧

警告！不要在 ChatGPT 里问最新 o1 模型是怎么思考的 ——只要尝试几次，OpenAI 就会发邮件威胁撤销你的使用资格。请停止此活动，确保您使用 ChatGPT 时符合我们的使用条款。违反此条款的行为可能导致失去 OpenAI o1 访问权限。大模型新范式 o1 横空出世不到 24 小时，就已经有不少用户反馈收到这封警告邮件，引起众人不满。有人反馈只要提示词里带“reasoning trace”、“show your chain of thought”等关键词就会收到警告。甚至完全避免出现关键词，使用其他手

因类人通用推理、可辅助制作生物武器等因素，OpenAI o1 AI 模型归类为“中等风险”

科技媒体 The Decoder 昨日（9 月 13 日）发布博文，报道称在 OpenAI 自家的“防备框架”（Preparedness Framework）下，将最新发布的 o1 AI 模型归类为“中等风险”（medium risk）。防备框架简介AI在线曾于 2023 年 12 月报道，OpenAI 成立了新的“防备”（Preparedness）团队，并提出“防备框架”指导方针。防备团队将反复评估 OpenAI 最先进、尚未发布的 AI 模型，根据不同类型的感知风险评为四个等级，从低到高依次是“低”、“中”、“

训大模型为啥这么贵？专家：一半以上算力被浪费了

人工智能时代，大模型的发展带来了智能算力需求的大爆发。据估算，自 2012 年以来，AI 模型训练算力需求每 3~4 个月就翻一番，每年训练 AI 模型所需算力增长幅度高达 10 倍。同时，OpenAI 曾在 2020 年提出 Scaling law 定律。该定律指出，大模型的最终性能与计算量、模型参数量及训练数据量的大小密切相关。换言之，若要提升大模型的能力，就需要不断增加模型参数和训练数据量，这就需要部署大规模的训练集群，随着集群规模的不断扩大，训练成本也呈指数级增长。9月13日，在百度智能云举办的媒体技术沙龙

OpenAI o1 模型登场：开启 AI 通用复杂推理新篇章，国际奥数正确率 83%

感谢OpenAI 传闻中的“草莓”（Strawberry）AI 模型现已面世，正式名称为“o1”，是该公司首款具备“推理”能力的模型。o1 和 o1-miniOpenAI 表示对该模型进行特殊训练，能够比人类更快地回答更复杂的问题。与之同时发布的还有 o1-mini，一个更小、成本更低的版本。OpenAI 表示 o1 模型的发布，是其迈向类人 AI 宏伟目标的关键一步。AI在线注：o1 模型目前处于“预览”阶段，官方强调该模型相关开发尚处于初期阶段，相比较 GPT-4o 模型，使用成本更高且速度更慢，但在编写代码和

迈向「多面手」医疗大模型，上交大团队发布大规模指令微调数据、开源模型与全面基准测试

编辑 | ScienceAI近日，上海交通大学、上海 AI Lab、中国移动等机构的联合研究团队，在 arXiv 预印平台发布文章《Towards Evaluating and Building Versatile Large Language Models for Medicine》，从数据、测评、模型多个角度全面分析讨论了临床医学大语言模型应用。文中所涉及的所有数据和代码、模型均已开源。GitHub: Link: : ，大型语言模型（LLM）取得了显著的进展，并在医疗领域取得了一定成果。这些模型在医学多