大模型

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。怎么说呢，QLoRA一作的一个词评价就是：优雅。

12/27/2024 12:37:18 PM

量子位

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

视频生成模型卷得热火朝天，配套的视频评价标准自然也不能落后。现在，北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench，相关代码与预训练权重均已开源。它重点关注了AI视频编辑中最常见的一个场景：视频编辑前后结果与原始视频之间的联系。

12/27/2024 12:36:27 PM

量子位

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

一夜之间，来自中国的大模型刷屏全网。 DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

12/27/2024 10:27:58 AM

新智元

Cursor 深度评测：革命性提效工具还是过誉的玩具？

最近 Cursor 很火，火到我身边的程序员们已经不聊河北彩花，LOL，黑猴等，而是在各种场合讨论这个 Cursor 的辅助编程能力。各类内容平台也在以惊人的速度，迭代出了许多相关教学视频：图片我试用了一段时间，第一感觉确实很惊艳，能帮我解决很多基础问题，实打实地提升开发效率，印象比较深的，包括：Codebase Indexing、@symbol 等功能带来的更强的上下文索引能力，而这极大提升最终 LLM 生成的代码效果；Cursor Composer 功能提供了一个注意力非常聚焦的编程面板，相比于过往 GPT 等产品的即聊即抛的模式，更容易做好跨文件的编辑开发，而这更符合专业开发者的模块化编程习惯。但是，我觉得，至少在当下阶段，这类产品的定位只能是“辅助编程”，虽然能极大提升效率，但还只是编程活动中的辅助客体，俗称打下手；程序员本体 —— 人类智能依然是主体地位，有点类似于掌柜的吧。

12/27/2024 9:05:18 AM

范文杰

集中接入：将大模型统一管理起来，你觉得怎么样？

为什么要集中接入？集中接入，就是把大模型的接入统一到一个地方管理起来，下面这张图可以很好地帮我们理解集中接入：图片从这个图上，你已经看出来了，所谓的集中接入，其实就是构建了一个代理，我们后面就称它为大模型代理。到这里，你可能产生这样的疑问：我直接用大模型不好吗？

12/27/2024 8:27:27 AM

greencoatman

一日一技：超简单方法显著提高大模型答案质量

很多人都知道Prompt大神李继刚，他使用Lisp语法来写Prompt，把大模型指挥得服服帖帖。但我们很多时候没有办法把自己业务场景的Prompt改造成伪代码的形式。相信不少人跟我一样，会使用Markdown格式来写Prompt，大部分时候没什么问题，但偶尔总会发现大模型返回的结果跟我们想要的不一样。

12/27/2024 12:44:44 AM

kingname

劲爆！理想汽车转做大模型，主持人质疑李想是否跟风：你有理想吗？李想自曝三次创业心得：终极是硅基家人，要做中国第一！

编辑 | 言征厂长李想回来了！不过出人意料的是，李想一公开露面，就曝出一个大料：李想要把理想汽车这家车企改造成一家AI企业？昨晚，理想汽车官宣的三天直播上来就抛出了一个让人脑洞大开、议论纷纷的话题。

12/26/2024 4:46:49 PM

言征

超越Claude 3.5紧追o1！DeepSeek-V3-Base开源，编程能力暴增近31％

12/26/2024 4:43:19 PM

机器之心

英伟达年终核弹！全新B300为o1推理大模型打造，RTX5090也曝光了

英伟达老黄，成了今年的圣诞老黄。 AI芯片大礼包刚刚曝光：GPU新核弹B300，以及附带CPU的超级芯片GB300。高算力，在产品层面上相比B200在FLOPS上提高50%大显存，从192GB提升到288GB，也是提高了50%。

12/26/2024 11:45:48 AM

o3挑战ARC-AGI，遇见大网格就懵圈？英国工程师：ARC-AGI不适合大模型

o3在超难推理任务ARC-AGI上的成绩，属实给人类带来了不少震撼。但有人专门研究了它不会做的题之后，有了更有趣的发现——o3之所以不会做这些题，原因可能不是因为太难，而是题目的规模太大了。来自英国的ML工程师Mikel Bober-Irizar（不妨叫他米哥），对ARC题目进行了细致观察。

12/26/2024 11:42:56 AM

网页多模态建模思考

1.综述网页本质上是一种超文本，一般由超文本标记语言来定义（例如HTML）。 HTML是一种基础技术，常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面。网页浏览器内核通过解释HTML文件，通过视觉引擎将其渲染成可视化网页。

12/26/2024 1:20:53 AM

百度Geek说

机器学习|从0开始大模型之模型LoRA训练

1、LoRA是如何实现的? 在深入了解 LoRA 之前，我们先回顾一下一些基本的线性代数概念。 1.1、秩给定矩阵中线性独立的列（或行）的数量，称为矩阵的秩，记为 rank(A) 。

12/26/2024 12:46:25 AM

周末程序猿

Bolt.new vs Cursor ，怎么选？

大家好，我是汤师爷~这篇聊聊 Bolt.new 和 Cursor 的对比。图片Bolt.new 是一款基于 SaaS 的 AI 编码平台。它由 LLM 驱动的智能体作为底层，并结合 WebContainers 技术，让用户可以直接在浏览器中进行编码和运行。

12/26/2024 12:38:10 AM

架构师汤师爷

TurboAttention：基于多项式近似和渐进式量化的高效注意力机制优化方案，降低LLM计算成本70%

随着大型语言模型(LLMs)在AI应用领域持续发展，其计算成本也呈现显著上升趋势。数据分析表明，GPT-4的运行成本约为700美元/小时，2023年各企业在LLM推理方面的总支出超过50亿美元。这一挑战的核心在于注意力机制——该机制作为模型处理和关联信息的计算核心，同时也构成了主要的性能瓶颈。

12/25/2024 4:42:18 PM

Tim Urista

大模型版生命游戏来了!「AI科学家」背后公司联手MIT&OpenAI等打造

大模型版生命游戏来了。 ALife，即人工生命，旨在通过人工手段研究生命和类生命过程。程序员们深深着迷的康威生命游戏，就属于这一研究领域。

12/25/2024 3:36:44 PM

国产AI之光！TeleAI星辰大模型入选央企十大国之重器评选

近日，国务院国资委新闻中心发起“十大国之重器”年度盘点，从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器，诚邀广大网友评选“年度十大国之重器”。由中电信人工智能科技有限公司和中国电信人工智能研究院（TeleAI）打造的“全国产化万亿参数星辰大模型发布”光荣入选，成为国产AI的佼佼者，展现了中国电信在人工智能领域的领先地位。星辰大模型，开启国产AI新时代星辰大模型，是由中国电信自主研发打造的全国产化万亿参数大模型，是国内AI技术的重大突破。

12/25/2024 2:50:00 PM

新闻助手

基座大模型「六进二」：南阶跃，北智谱

作者丨陈彩娴今天消息，阶跃星辰完成了 B 轮融资，总融资金额达数亿美元。 AI 科技评论获悉，此次融资有国资、战略和财务投资人等多家参与，核心投资方包括上海国有资本投资有限公司及其旗下基金，战略和财务投资人包括腾讯投资、五源资本、启明创投等。据了解，这笔融资将用于继续投入基础模型研发，强化多模态和复杂推理能力，并通过产品和生态加大覆盖 C 端应用场景，提供丰富的用户体验。

12/25/2024 2:38:00 PM

陈彩娴

OpenAI被曝自研人形机器人，四年前因缺数据解散团队，如今要用机器人数据反哺大模型了

o3之后，OpenAI下一个项目曝光了：人形机器人这次不只是投资像Figure、1x和Physical Intelligence这样的机器人初创公司，也不只是算法团队搞机器人强化学习。而是自己涉足硬件，研发有双臂、双腿的实体人形机器人。 Information的消息称，两位直接了解这个项目的人透露了这个消息。

12/25/2024 10:58:29 AM

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型