大模型
国产之光DeepSeek把AI大佬全炸出来了!671B大模型训练只需此前算力1/10,细节全公开
DeepSeek新版模型正式发布,技术大佬们都转疯了! 延续便宜大碗特点的基础之上,DeepSeek V3发布即完全开源,直接用了53页论文把训练细节和盘托出的那种。 怎么说呢,QLoRA一作的一个词评价就是:优雅。
12/27/2024 12:37:18 PM
量子位
北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25
视频生成模型卷得热火朝天,配套的视频评价标准自然也不能落后。 现在,北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,相关代码与预训练权重均已开源。 它重点关注了AI视频编辑中最常见的一个场景:视频编辑前后结果与原始视频之间的联系。
12/27/2024 12:36:27 PM
量子位
中国MoE一夜爆火!大模型新王暴打GPT-4o,训练成本仅600万美元
一夜之间,来自中国的大模型刷屏全网。 DeepSeek-V3,一个拥有671B参数的MoE模型,吞吐量每秒高达60 token,比上一代V2直接飙升3倍。 在多项基准测试中,V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。
12/27/2024 10:27:58 AM
新智元
Cursor 深度评测:革命性提效工具还是过誉的玩具?
最近 Cursor 很火,火到我身边的程序员们已经不聊河北彩花,LOL,黑猴等,而是在各种场合讨论这个 Cursor 的辅助编程能力。 各类内容平台也在以惊人的速度,迭代出了许多相关教学视频:图片我试用了一段时间,第一感觉确实很惊艳,能帮我解决很多基础问题,实打实地提升开发效率,印象比较深的,包括:Codebase Indexing、@symbol 等功能带来的更强的上下文索引能力,而这极大提升最终 LLM 生成的代码效果;Cursor Composer 功能提供了一个注意力非常聚焦的编程面板,相比于过往 GPT 等产品的即聊即抛的模式,更容易做好跨文件的编辑开发,而这更符合专业开发者的模块化编程习惯。 但是,我觉得,至少在当下阶段,这类产品的定位只能是“辅助编程”,虽然能极大提升效率,但还只是编程活动中的辅助客体,俗称打下手;程序员本体 —— 人类智能依然是主体地位,有点类似于掌柜的吧。
12/27/2024 9:05:18 AM
范文杰
集中接入:将大模型统一管理起来,你觉得怎么样?
为什么要集中接入? 集中接入,就是把大模型的接入统一到一个地方管理起来,下面这张图可以很好地帮我们理解集中接入:图片从这个图上,你已经看出来了,所谓的集中接入,其实就是构建了一个代理,我们后面就称它为大模型代理。 到这里,你可能产生这样的疑问:我直接用大模型不好吗?
12/27/2024 8:27:27 AM
greencoatman
一日一技:超简单方法显著提高大模型答案质量
很多人都知道Prompt大神李继刚,他使用Lisp语法来写Prompt,把大模型指挥得服服帖帖。 但我们很多时候没有办法把自己业务场景的Prompt改造成伪代码的形式。 相信不少人跟我一样,会使用Markdown格式来写Prompt,大部分时候没什么问题,但偶尔总会发现大模型返回的结果跟我们想要的不一样。
12/27/2024 12:44:44 AM
kingname
劲爆!理想汽车转做大模型,主持人质疑李想是否跟风:你有理想吗?李想自曝三次创业心得:终极是硅基家人,要做中国第一!
编辑 | 言征厂长李想回来了! 不过出人意料的是,李想一公开露面,就曝出一个大料:李想要把理想汽车这家车企改造成一家AI企业? 昨晚,理想汽车官宣的三天直播上来就抛出了一个让人脑洞大开、议论纷纷的话题。
12/26/2024 4:46:49 PM
言征
英伟达年终核弹!全新B300为o1推理大模型打造,RTX5090也曝光了
英伟达老黄,成了今年的圣诞老黄。 AI芯片大礼包刚刚曝光:GPU新核弹B300,以及附带CPU的超级芯片GB300。 高算力,在产品层面上相比B200在FLOPS上提高50%大显存,从192GB提升到288GB,也是提高了50%。
12/26/2024 11:45:48 AM
o3挑战ARC-AGI,遇见大网格就懵圈?英国工程师:ARC-AGI不适合大模型
o3在超难推理任务ARC-AGI上的成绩,属实给人类带来了不少震撼。 但有人专门研究了它不会做的题之后,有了更有趣的发现——o3之所以不会做这些题,原因可能不是因为太难,而是题目的规模太大了。 来自英国的ML工程师Mikel Bober-Irizar(不妨叫他米哥),对ARC题目进行了细致观察。
12/26/2024 11:42:56 AM
网页多模态建模思考
1.综述网页本质上是一种超文本,一般由超文本标记语言来定义(例如HTML)。 HTML是一种基础技术,常与CSS、JavaScript一起被众多网站用于设计网页、网页应用程序以及移动应用程序的用户界面 。 网页浏览器内核通过解释HTML文件,通过视觉引擎将其渲染成可视化网页。
12/26/2024 1:20:53 AM
百度Geek说
机器学习|从0开始大模型之模型LoRA训练
1、LoRA是如何实现的? 在深入了解 LoRA 之前,我们先回顾一下一些基本的线性代数概念。 1.1、秩给定矩阵中线性独立的列(或行)的数量,称为矩阵的秩,记为 rank(A) 。
12/26/2024 12:46:25 AM
周末程序猿
Bolt.new vs Cursor ,怎么选?
大家好,我是汤师爷~这篇聊聊 Bolt.new 和 Cursor 的对比。 图片Bolt.new 是一款基于 SaaS 的 AI 编码平台。 它由 LLM 驱动的智能体作为底层,并结合 WebContainers 技术,让用户可以直接在浏览器中进行编码和运行。
12/26/2024 12:38:10 AM
架构师汤师爷
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
随着大型语言模型(LLMs)在AI应用领域持续发展,其计算成本也呈现显著上升趋势。 数据分析表明,GPT-4的运行成本约为700美元/小时,2023年各企业在LLM推理方面的总支出超过50亿美元。 这一挑战的核心在于注意力机制——该机制作为模型处理和关联信息的计算核心,同时也构成了主要的性能瓶颈。
12/25/2024 4:42:18 PM
Tim Urista
大模型版生命游戏来了!「AI科学家」背后公司联手MIT&OpenAI等打造
大模型版生命游戏来了。 ALife,即人工生命,旨在通过人工手段研究生命和类生命过程。 程序员们深深着迷的康威生命游戏,就属于这一研究领域。
12/25/2024 3:36:44 PM
国产AI之光!TeleAI星辰大模型入选央企十大国之重器评选
近日,国务院国资委新闻中心发起“十大国之重器”年度盘点,从2024年中央企业建设的众多重点项目中精心选出20项既有影响力又有创新力的大国重器,诚邀广大网友评选“年度十大国之重器”。 由中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)打造的“全国产化万亿参数星辰大模型发布”光荣入选,成为国产AI的佼佼者,展现了中国电信在人工智能领域的领先地位。 星辰大模型,开启国产AI新时代星辰大模型,是由中国电信自主研发打造的全国产化万亿参数大模型,是国内AI技术的重大突破。
12/25/2024 2:50:00 PM
新闻助手
基座大模型「六进二」:南阶跃,北智谱
作者丨陈彩娴今天消息,阶跃星辰完成了 B 轮融资,总融资金额达数亿美元。 AI 科技评论获悉,此次融资有国资、战略和财务投资人等多家参与,核心投资方包括上海国有资本投资有限公司及其旗下基金,战略和财务投资人包括腾讯投资、五源资本、启明创投等。 据了解,这笔融资将用于继续投入基础模型研发,强化多模态和复杂推理能力,并通过产品和生态加大覆盖 C 端应用场景,提供丰富的用户体验。
12/25/2024 2:38:00 PM
陈彩娴
OpenAI被曝自研人形机器人,四年前因缺数据解散团队,如今要用机器人数据反哺大模型了
o3之后,OpenAI下一个项目曝光了:人形机器人这次不只是投资像Figure、1x和Physical Intelligence这样的机器人初创公司,也不只是算法团队搞机器人强化学习。 而是自己涉足硬件,研发有双臂、双腿的实体人形机器人。 Information的消息称,两位直接了解这个项目的人透露了这个消息。
12/25/2024 10:58:29 AM
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
人形机器人
苹果
深度学习
AI视频
模态
字节跳动
xAI
驾驶
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型