数据

多模态模型已落地多领域,OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

缩放定律的放缓带来的技术路径演变在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本性质疑。 Ilya 讨论了预训练模型的局限性,预见 AI 系统需要发展出更加接近人类思考方式的推理能力。 他强调,为了突破当前的局限并继续提升 AI 的能力,必须寻找新的训练方法。

全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘

刚刚过去的 2024 年是生成式 AI 大发展的一年,我们见证了 OpenAI Sora 的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。 这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。 对于身在 AI 领域的工程师和学者们来说,他们看待这一年的观点会有不同吗?

微软论文意外「走光」,OpenAI参数全泄密!GPT-4o仅200B,o1 300B

谁能想到,微软在一篇医学领域的论文里,竟然把OpenAI模型的参数全「曝光」了! GPT-4参数约1.76万亿GPT-4o参数约2000亿GPT-4o mini参数约80亿o1-preview参数约3000亿o1-mini参数约1000亿Claude 3.5 Sonnet参数约1750亿研究人员:参数均为估算值让所有人难以置信的是,GPT-4o系列的参数如此少,mini版甚至只有8B。 有网友猜测,4o mini是一个大约有40B参数的MoE模型,其中激活参数为8B。

ViT作者飞机上也要读的改进版Transformer论文,花2个小时详细批注解读分享出来

ViT核心作者Lucas Beyer,长文分析了一篇改进Transformer架构的论文,引起推荐围观。 他前不久从谷歌跳槽到OpenAI,这次是在飞机上阅读论文并写下了分析。 这篇论文被他简写为DiffTranformer,不过不是Sora底层架构的那个Diffusion Transformer,而是不久前来自微软的Differencial Transformer。

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

暨南大学通用机器学习课题组由网络空间安全学院和信息科学技术学院的多名青年教师、博士生、硕士生和本科生共同组成,研究方向包括通用逼近理论、分布外泛化、非凸优化、稀疏学习、深度学习框架的基础模块开发、优化器开发、隐私保护与增强等。 自 2024 年 4 月至 12 月,课题组作为第一单位已获得所有 CCF A 机器学习国际顶级会议 ICML(2 篇)、NeurIPS 和人工智能国际顶级会议 IJCAI、AAAI 录用论文共 5 篇。 本文第一作者为课题组负责人赖兆荣,通讯作者为博士生李程,其他合作作者为课题组教师吴小天、方良达、陈子良。

港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE ,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。 论文地址:: 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer,同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。 什么是 VideoVAE 模型VideoVAE 模型(Video Variational Autoencoder)是一种基于深度学习的生成模型,用于对视频数据进行压缩、重建和生成,讲视频从 RGB 像素空间投影到低维度的 latent 空间。

南大周志华:百万模型进入学件基座系统,很多我们没预期过的事也有可能实现 | MEET 2025

大模型时代,全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇,但也有人,坚持深耕在国产原创的另一条大模型之路上。 南京大学副校长、国际人工智能联合会理事会主席周志华教授,就是其中代表。 他提出的“学件范式”,旨在从数据隐私角度着手,通过模型 规约的方式构建基座系统,让用户的需求能被自动匹配到合适的模型、模型组合上,安全、可靠地复用他人开发的模型工具。

低精度只适用于未充分训练的LLM?腾讯提出LLM量化的scaling laws

论文标题:Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens论文链接:(low-bit quantization)和低比特大语言模型(low-bit LLM)近期受到了广泛的关注,因为有一些研究发现,它们能够以更小的模型规模、更低的内存占用和更少的计算资源,取得与 fp16 或 bf16 精度相当的性能表现。 这一发现让低比特语言模型一度被认为是实现模型高效化的一个非常有前景的方向。 然而,这一观点受到了腾讯 AI Lab 的挑战。

机器人空间泛化也有Scaling Law!清华新国大新算法框架让机器人操作更加鲁棒

在机器人空间泛化领域,原来也有一套Scaling Law! 来自清华和新加坡国立大学的团队,发现了空间智能的泛化性规律。 在此基础上,他们提出了一套新颖的算法框架——ManiBox,让机器人能够在真实世界中应对多样化的物体位置和复杂的场景布置。

DeepSeek V3“报错家门”:我是ChatGPT

要说这两天大模型圈的顶流话题,那绝对是非DeepSeek V3莫属了。 不过在网友们纷纷测试之际,有个bug也成了热议的焦点——只是少了一个问号,DeepSeek V3竟然称自己是ChatGPT。 甚至让它讲个笑话,生成的结果也是跟ChatGPT一样:加之DeepSeek V3这次爆火的一个亮点,就是训练只花了557.6万美元的成本。

超越ControlNet++!腾讯优图提出动态条件选择新架构

超越ControlNet ,让文生图更可控的新框架来了! 腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl,直接将多模态大语言模型(MLLM)的推理能力集成到文本生成图像(T2I))任务中。 而且还提出了一种新颖、高效的多控制适配器,可以自适应地选择不同的条件,从而实现动态多控制对齐。

CPO薪资倒挂CEO,创业公司薪酬情况大起底

初创公司里,平均薪酬最高的不是CEO? 你还真别说,事实上,CEO薪酬不仅远远落后CPO(首席产品官,Chief Product Officer)。 甚至COO(首席运营官,Chief Operating Officer)、CTO(首席技术官,Chief Technology Officer)都比CEO要高。

北大开源首个针对视频编辑的新指标,与人类感知高度对齐|AAAI25

视频生成模型卷得热火朝天,配套的视频评价标准自然也不能落后。 现在,北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench,相关代码与预训练权重均已开源。 它重点关注了AI视频编辑中最常见的一个场景:视频编辑前后结果与原始视频之间的联系。

时隔6年BERT升级!仅编码器架构没被杀死,更快更准确更长上下文

时隔6年,一度被认为濒死的“BERT”杀回来了——更现代的ModernBERT问世,更快、更准、上下文更长,发布即开源! 去年一张“大语言模型进化树”动图在学术圈疯转,decoder-only枝繁叶茂,而曾经盛极一时的encoder-only却似乎走向没落。 ModernBERT作者Jeremy Howard却说:encoder-only被低估了。

扒一扒o3-mini背后团队:3位华人核心成员,北大清华南开校友在列

比o1 mini性能更强,价格更低,性价比新王o3-mini再次引爆AI圈热议。 在官方截图中,中等o3-mini的性能和o1 mini差不多,价格却只有后者的一半,整体延迟也和GPT-4o相当。 最主要的,这表明了OpenAI可以在降低成本的同时提高性能。

AI能传递气味了!能定制个性化气味,谷歌前研究员新技术

继视觉和听觉之后,AI已经进化到拥有嗅觉了? ? 你没听错,这是来自Osmo公司的最新技术,它们刚刚首次实现了由AI生成的李子味道。

智源发布FlagEval「百模」评测结果,丈量模型生态变局

2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。 相较于今年 5 月的模型能力全方位评估,本次智源评测扩展、丰富、细化了任务解决能力内涵,新增了数据处理、高级编程和工具调用的相关能力与任务;首次增加了面向真实金融量化交易场景的应用能力评估,测量大模型的收益优化和性能优化等能力;首次探索基于模型辩论的对比评估方式,对模型的逻辑推理、观点理解、语言表达等核心能力进行深入分析。 智源评测发现,2024 年下半年大模型发展更聚焦综合能力提升与实际应用。

突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。