大模型

大模型前缀缓存技术，有望将服务成本降低90%

译者 | 核子可乐审校 | 重楼是不是总感觉ChatGPT响应缓慢？大家可能没有留意，大模型应用程序的提示词重复率高达70%，问天气、问翻译和问节日安排的内容大量出现，且每次都要消耗算力进行处理。这样的情况在分布式集群的各节点上被无数次放大，白白烧掉宝贵的能源和金钱。

2/17/2025 10:49:49 AM

核子可乐

谷歌 Gemini AI 向免费版用户开放文件上传 / 分析功能

谷歌 Gemini AI 已开始向免费版用户开放文件上传和分析功能，此前该功能仅向 Gemini Advanced 付费用户提供

2/15/2025 8:09:00 AM

漾仔

移远通信边缘计算模组成功运行DeepSeek模型，以领先的工程能力加速端侧AI落地

近日，国产大模型DeepSeek凭借其“开源开放、高效推理、端侧友好”的核心优势，迅速风靡全球。移远通信基于边缘计算模组SG885G，已成功实现DeepSeek模型的稳定运行，并完成了针对性微调。目前，该模型正在多款智能终端上进行深入测试与优化。

2/14/2025 10:00:00 AM

谷歌 Gemini 推出 “全局记忆” 功能，AI 将记住用户的所有对话

近日，谷歌宣布其人工智能助手 Gemini 推出了一项全新的 “全局记忆” 功能。这项功能将使得 Gemini 能够记住用户曾经与其进行的所有对话，为用户提供更加个性化的交流体验。用户现在只需订阅 Gemini 的高级服务，即可在 Gemini 应用程序和网页版上体验这一创新功能。

2/14/2025 9:18:00 AM

AI在线

仅需3步，稳定快速！火山引擎边缘大模型网关全面支持DeepSeek系列模型

DeepSeek 作为大模型新锐，凭借其在算法、架构及系统等核心领域的创新突破，迅速获得业界瞩目。在巨大的热度下，面对海量请求，越来越多用户遇到了请求失败、调用超时、结果无法返回等稳定性问题。火山引擎边缘大模型网关通过一个 API 接入多家模型服务，利用全球边缘节点就近调用，提升响应速度；支持故障自动切换、重试和超时控制，确保服务可靠性；兼容 OpenAI 接口标准，可快速集成 DeepSeek 等模型，降低接入成本。

2/14/2025 9:00:00 AM

边缘云技术团队

谷歌 Gemini 宣布上线“全局记忆”功能，订阅用户可令 AI 回忆曾经所有对话

谷歌宣布旗下 Gemini AI 上线“全局记忆”功能，也就是 AI 目前记得用户曾经与其进行过的所有对话，号称可以为用户提供更加私人化的回复。目前，用户需要订阅 Gemini Advanced 服务才能在 Gemini App 和网页端体验相关功能，当下暂时仅支持英语，未来几周内将支持其他语言。

2/14/2025 6:57:14 AM

漾仔

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

LLaMA是目前很多SOTA开源大模型的基础，包括DeepSeek、千问等在内的很多大模型的模型机构大体上都沿用了LLaMA。因此，LLaMA在模型结构的设计上可以说是目前大模型的一种最佳实践。这篇文章就给大家汇总一下LLaMA的核心模型结构。

2/14/2025 1:00:00 AM

Fareise

DeepSeek-R1技术解码：如何实现大模型推理能力的提升？

1月20日，幻方量化旗下AI公司深度求索(DeepSeek)发布了新一代开源大模型DeepSeek-R1。作为一款专注于推理能力的AI大模型，DeepSeek-R1凭借着成本低、推理能力强等优势，在人工智能领域掀起了千层巨浪，引起了人们的广泛关注与讨论。 DeepSeek-R1的成功，让我们更加清晰地认识到推理能力在当下人工智能发展中的重要地位。

2/13/2025 8:51:23 AM

NLLB 与 ChatGPT 双向优化：探索翻译模型与语言模型在小语种应用的融合策略

本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。首先介绍了 NLLB-200 的背景、数据、分词器和模型，以及其与 LLM（Large Language Model）的异同和协同关系。接着列举了实战与应用的案例，包括使用 ChatGPT 生成的样本微调 NLLB-200 和使用 NLLB-200 的翻译结果作为 LLM 的 prompt 等。

2/13/2025 8:44:56 AM

Huang Minghui

字节跳动豆包UltraMem架构将大模型推理成本降低83%

字节跳动豆包大模型团队今日宣布，成功研发出全新稀疏模型架构UltraMem，该架构有效解决了MoE（混合专家）模型推理时的高额访存问题，推理速度较MoE提升2-6倍，推理成本最高可降低83%。这一突破性进展为大模型的高效推理开辟了新路径。 UltraMem架构在保证模型效果的前提下，成功解决了MoE架构推理时的访存瓶颈。

2/12/2025 2:04:00 PM

AI在线

豆包提出全新稀疏模型架构 UltraMem，推理成本较 MoE 最高可降 83%

实验结果表明，训练规模达 2000 万 value 的 UltraMem 模型，在同等计算资源下，可同时实现业界领先的推理速度和模型性能，为构建数十亿规模 value 或 expert 开辟了新路径。

2/12/2025 12:58:01 PM

清源

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

DeepSeek-R1火遍海内外，但推理服务器频频宕机，专享版按GPU小时计费的天价成本更让中小团队望而却步。而市面上所谓“本地部署”方案，多为参数量缩水90%的蒸馏版，背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此，想在本地小规模硬件上跑真正的DeepSeek-R1，被认为基本不可能。

2/12/2025 12:45:59 PM

国家超算平台推AI伙伴计划:三月免费开放DeepSeek API

国家超算互联网平台近日宣布启动"AI生态伙伴加速计划"，面向企业用户推出一系列优惠举措，包括提供为期3个月的DeepSeek API接口免费使用权限，并配套千万卡时的算力资源池支持。据了解，该平台已完成DeepSeek满血版模型镜像的部署工作。目前平台已实现与全国14个省份超过20家超算和智算中心的互联互通，汇集各类算力商品逾6500款，其中AI模型服务近240款。

2/12/2025 9:28:00 AM

AI在线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布，其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术，利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化，进一步提升了模型性能。在 watsonx.ai平台上，用户可以通过两种方式使用 DeepSeek 蒸馏模型。

2/11/2025 2:25:00 PM

AI在线

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

近日，全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜（Open LLM Leaderboard），结果显示，排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。这一成就标志着 Qwen 在开源 AI 领域的主导地位，进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单，测试维度涵盖了多个领域，包括阅读理解、逻辑推理、数学计算及事实问答等。

2/11/2025 11:55:00 AM

AI在线

从 DeepSeek 看25年前端的一个小趋势

从 DeepSeek 看25年前端的一个小趋势大家好，我卡颂。最近DeepSeek R1爆火。有多火呢？

2/11/2025 10:17:19 AM

卡颂

AI 聊天机器人在时事问题上频频出错，BBC 研究揭示事实扭曲

最近，英国广播公司（BBC）的一项研究揭示，领先的人工智能助手在回答与新闻和时事相关的问题时，常常产生误导性和不准确的内容。研究表明，ChatGPT、Gemini 和 Perplexity 四种主流 AI 工具所生成的回答中，有超过一半被认为存在 “重大问题”。图源备注:图片由AI生成，图片授权服务商Midjourney研究人员要求这四款生成式 AI 工具使用 BBC 的新闻文章作为来源，回答100个相关问题。

2/11/2025 9:54:00 AM

AI在线

DeepSeek R1 震撼登场：从介绍到使用

春节期间，DeepSeek 掀起了一股热潮，成为了科技领域的热门话题。身边很多非圈内人士茶余饭后也在讨论 DeepSeek，足以见得其火爆程度。介绍DeepSeek 全称：杭州深度求索人工智能基础技术研究有限公司，成立于 2023 年 7 月 17 日。

2/11/2025 8:35:30 AM

oec2003

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

大模型

大模型前缀缓存技术，有望将服务成本降低90%

谷歌 Gemini AI 向免费版用户开放文件上传 / 分析功能

移远通信边缘计算模组成功运行DeepSeek模型，以领先的工程能力加速端侧AI落地

谷歌 Gemini 推出 “全局记忆” 功能，AI 将记住用户的所有对话

仅需3步，稳定快速！火山引擎边缘大模型网关全面支持DeepSeek系列模型

谷歌 Gemini 宣布上线“全局记忆”功能，订阅用户可令 AI 回忆曾经所有对话

一文带你看懂开源大模型基石LLaMA核心技术点，DeepSeek/千问等LLM的模型结构基础

DeepSeek-R1技术解码：如何实现大模型推理能力的提升？

NLLB 与 ChatGPT 双向优化：探索翻译模型与语言模型在小语种应用的融合策略

字节跳动豆包UltraMem架构将大模型推理成本降低83%

豆包提出全新稀疏模型架构 UltraMem，推理成本较 MoE 最高可降 83%

4090单卡跑满血版DeepSeek-R1，清华团队开源项目再破大模型推理门槛

国家超算平台推AI伙伴计划:三月免费开放DeepSeek API

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

全球开源大模型榜单揭晓，阿里通义千问独占鳌头

从 DeepSeek 看25年前端的一个小趋势

​AI 聊天机器人在时事问题上频频出错，BBC 研究揭示事实扭曲

DeepSeek R1 震撼登场：从介绍到使用

AI 聊天机器人在时事问题上频频出错，BBC 研究揭示事实扭曲