大模型

为什么AI需要向量数据库？

大模型火遍全球，DeepSeek、OpenAI、谷歌、百度、抖音等科技巨头争相发布自家产品。多数人会想当然认为，大模型越大越强大，参数量越多就越聪明。现实呢？

4/3/2025 11:04:40 AM

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？

4/3/2025 9:23:08 AM

量子位

AI算法 | 训练数据的数量、质量及语言分布等因素对中文大模型性能的影响

已有LLM研究探索了训练数据对模型性能的影响，但这些研究大多集中在英文模型上，对于中文模型的研究相对较少。今天来看一篇来自贝壳的研究团队在2023年的一篇工作——《Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation》。这篇工作的核心目标是提升中文指令跟随语言模型的性能。

4/3/2025 7:00:00 AM

Goldma

谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能，可自动检索相关网络资源

谷歌NotebookLM推出“发现资料”新功能，基于Gemini技术自动搜索网络资源，提升学习研究效率。用户只需输入兴趣点，AI即可推荐相关资源并生成摘要。#AI学习工具##NotebookLM#

4/3/2025 6:50:40 AM

远洋

万卡集群真实部署，已节省数百万 GPU 小时！MoE 通信优化技术 COMET 开源

当前，MoE 架构是业界拓展模型规模的重要方向，然而，其在分布式训练中存在的大量通信开销，仍严重制约了训练效率和成本。为攻克这一瓶颈，豆包大模型团队提出了一个全新的通信优化系统 COMET，通过更精准、细粒度的计算-通信重叠技术，在大规模 MoE 模型上可达到单层 1.96 倍加速，端到端平均 1.71 倍效率提升，且在不同并行策略、输入规模及硬件环境下均表现稳定。目前，COMET 已实际应用于万卡级生产集群，助力 MoE 模型高效训练，并已累计节省了数百万 GPU 小时资源。

4/3/2025 12:00:00 AM

豆包大模型团队

超实用！Prompt程序员使用指南，大模型各角色代码实战案例

提示词（Prompt）是输入给大模型（LLM）的文本指令，用于明确地告诉大模型你想要解决的问题或完成的任务，也是大语言模型理解用户需求并生成准确答案的基础。因此 prompt 使用的好坏，直接决定了大模型生成结果的质量（是否符合预期）。图片Prompt 基本使用为了让大模型生成更符合预期的结果，我们在使用 Prompt 时，可以使用以下模版。

4/3/2025 12:00:00 AM

磊哥

Gemini Canvas 全民玩疯了！免费可用！谷歌：我们的TPU烫麻了，简直火上浇油！皮查伊：我们是SOTA！氛围编程来了

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）自Gemini2.5 Pro发布后，被OpenAI的“吉卜力”画风成功“阻击”的谷歌，逆势火了一把。 4月1日凌晨，谷歌发布了“Google Gemini Canvas”，引起了社媒用户的疯狂转发。图片从提示到原型只需几分钟，任何人都可以使用Canvas进行编码和创作。

4/2/2025 12:23:06 PM

云昭

代码显示谷歌正在开发儿童版 Gemini：能编故事，还能辅导作业

谷歌在 Gemini 的安全页面上提到，该 AI 针对青少年用户设有“更严格”的内容政策和默认保护措施。

4/2/2025 12:03:30 PM

清源

人工智能应用就是大模型能力+场景，基于大模型构建应用，首先要了解大模型的能力圈

在关于大模型应用方面，虽然也了解和应用过其中的一些技术；但经过这段时间的实践和思考发现，对大模型应用的认识还很浅显，因此在此记录一下自己的思考。大模型应用的思考大模型作为人工智能应用的底座技术，所有应用场景和技术都是构建在大模型之上；但很多时候我们都搞错了一件事，那就是我们没有搞清楚大模型能力和其它技术的关联和区别。因此，在这里我们要搞清楚一个概念，那就是大模型能力；所谓大模型的能力，就是模型开发人员怎么把模型做的更好更强，其中设计到模型的设计，训练等；具体有神经网络架构，模型蒸馏等等。

4/2/2025 8:40:00 AM

DFires

大模型应用的能力分级

对大模型应用的能力分级就像给学生打分一样，能让我们更清楚它的本事有多大。能力分级能帮我们设定目标，知道AI现在能干什么，未来还要学什么。有了统一的分级方式，大家就能公平比较不同AI的水平，推动技术进步。

4/2/2025 1:25:00 AM

曹洪伟

关于大模型智能体意图识别不准确问题：function call 的缺陷

最近在研究大模型智能体也就是Agent的过程中，遇到了一个很严重的问题，直接影响到Agent的质量和效果；那就是意图识别不准确，也可以说是Agent的幻觉问题。其产生的原因就在于大模型有时无法准确识别出用户意图，无法准确调用相应的函数。意图识别不准确现在大模型技术在应用方面，主要有两大方向；其一就是大模型的创作能力，简单来说就是内容生成方面，如生成图片，文字，视频，也包括RAG等。

4/1/2025 12:10:00 PM

DFires

GPT-2后首次！OpenAI将开源带推理能力的开源权重模型！网友：能比DeepSeek R1强吗？

出品 | 51CTO技术栈（微信号：blog51cto）奥特曼发布X文，宣布了一个重磅推理开源权重模型：长话短说：我们即将在未来几个月发布一个强大的开源语言模型，具备推理能力，并希望与开发者交流如何让它更有用：！我们计划发布自 GPT-2 以来的首个开源语言模型。我们已经考虑了很久，但之前有其他优先事项。

4/1/2025 10:35:37 AM

AI算法 | 如何训练自己的大模型？

1、第一阶段：二次预训练模型选择与转换在开始训练之前，需要选择一个合适的基础模型。本文以LLaMA-7B为例，简单介绍下。为了方便后续的操作，将LLaMA-7B模型转换为Hugging Face格式。

4/1/2025 9:54:09 AM

Goldma

刚刚，谷歌最强Gemini 2.5 Pro免费了！数学碾压人类研究生，拿下全球TOP 1

虽然又被GPT-4o吉卜力生图的光芒掩盖了，但毫无疑问，上周的另一技术核弹Gemini 2.5 Pro，也是无可争议的强！在试用过程中，网友们逐渐发现，这个模型真的强到发指。在门萨Norway的IQ测试中，它已经突破了130。

4/1/2025 9:17:00 AM

新智元

阿里云与南京大学联合启动人工智能人才培养合作计划

南京大学与阿里云正式宣布启动一项人工智能人才培养合作计划，旨在共同培养适应未来技术变革、具备跨学科思维的 AI 创新人才。该合作充分利用了阿里云在云计算和人工智能领域的技术优势，以及南京大学在相关学科的深厚底蕴。根据协议，南京大学与阿里云将共同设计一系列前瞻性和应用性的人工智能通识课程，同时研发跨学科融合的大模型应用实践课程。

3/31/2025 2:51:00 PM

AI在线

“迄今最智能”AI 模型登场，谷歌 Gemini 2.5 Pro 免费向公众推出

谷歌今日宣布，最新的 Gemini AI 旗舰模型 Gemini 2.5 Pro 将免费向所有 Gemini 应用用户开放。此前，该实验性模型仅限于 Gemini Advanced 订阅用户使用。

3/30/2025 4:37:27 PM

清源

面壁智能 CEO 李大海：汽车比手机更适合端侧模型落地

李大海指出，因为汽车这个场景，用户的手天然就会在方向盘上，用户更需要用语音去跟座舱交互，同时座舱也有更多的传感器能够去感知环境。相比之下，手机反而没有这样的条件，所以，汽车反而是端侧模型落地更好的产品。（新浪科技）

3/30/2025 4:14:33 PM

开源版Suno来了！AI音乐生成模型YuE可生成专业级的歌声和伴奏

近日，由香港科技大学与音乐领域的 DeepSeek 合作开发的开源音乐生成模型 YuE 正式发布，震惊了不少乐迷和音乐创作者。这一模型不仅能够生成多种风格的音乐，还可以模拟人声，给听众带来全新的音乐体验。 YuE 的特点在于其双 LLaMA 语言模型架构，这使其能够无缝适配各种大语言模型，并且能够处理长达5分钟的完整歌曲。

3/28/2025 3:06:00 PM