文章列表

分类

标签

具身智能新高度！智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是具身智能领域的核心科学问题。然而，这一目标的实现受两大关键挑战制约：模态对齐：需在语言、视觉和动作等多模态空间中建立精确的对齐机制。数据稀缺：缺乏规模化、多模态且具备动作标签的数据集。

1/9/2025 12:39:27 PM

机器之心

如何证明一个数是无理数？他们找到了欧拉和黎曼错过的证明，华人数学家唐云清参与

我们都知道，实数分为有理数和无理数，它们的定义也都很明确。但令人惊讶的是，其实很难证明一个数究竟能否写成分数形式。而现在，这个古老的问题有了一种广泛适用的新方法。

1/9/2025 12:24:39 PM

机器之心

讯飞商业生态平台2.0来了！构建大模型应用服务新体系

AI时代的聚光灯已经由“模型参数”转移到“应用价值”，引领千行百业发掘大模型刚需场景，构建新质生产力。据智能超参数发布的《中国大模型中标项目监测报告(2024)》显示，2024年有披露的大模型中标项目达到1520个，相比去年增长了15.5倍。 1月8日，科大讯飞AI服务市场行业伙伴生态大会在北京中关村国际会议中心成功举办。

1/9/2025 12:15:00 PM

新闻助手

OpenAI智能体曝本月诞生！比谷歌Anthropic慢，竟是担心prompt攻击

2025年，智能体将是AI领域最激烈的战场。然而，一直在AI领域「独占鳌头」的OpenAI，却迟迟没有出手。不过，外媒最近曝出了一条好消息——OpenAI可能在本月就会发布自家的「计算机操作智能体」！

1/9/2025 9:00:00 AM

新智元

特斯拉 Cybertruck 拉斯维加斯爆炸案细节曝光：嫌犯用 ChatGPT 协助策划

执法官员称，37岁的嫌犯马修·艾伦·利弗尔斯伯格曾向ChatGPT询问如何制造爆炸物、爆炸物需要多快的速度才能引发爆炸而不仅仅是着火，并探讨如何规避法律获得相关材料。

1/8/2025 3:53:22 PM

清源

【LLM&Agent】PPTAgent：PPT自动生成Agent框架

来看一个PPT生成思路：PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式，这种方法仅关注文本内容，忽略了布局设计和PPT结构。 PPTAgent 采用了一种基于编辑的生成范式，解决处理空间关系和设计风格方面的挑战。

1/8/2025 3:15:16 PM

余俊晖

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

在当今数字时代，智能助手已成为处理跨平台任务的不可或缺工具。然而，如何将用户的自然语言指令精准映射（grounding）到界面元素一直是该领域的核心挑战。传统解决方案主要依赖调用无障碍API、解析HTML源码或提取后台数据，这些方法普遍存在效率低下、信息不完整、兼容性差等显著痛点，严重制约了自动化技术的广泛应用。

1/8/2025 2:43:30 PM

新智元

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

近日，中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。论文中提出的 Falcon 方法是一种增强半自回归投机解码框架，旨在增强 draft model 的并行性和输出质量，以有效提升大模型的推理速度。 Falcon 可以实现约 2.91-3.51 倍的加速比，在多种数据集上获得了很好的结果，并已应用到翼支付多个实际业务中。

1/8/2025 1:15:02 PM

机器之心

黄仁勋圈重点的世界模型平台是个啥？技术报告全解析，华人贡献中坚力量

AI 的下一个前沿是物理。在昨天的 CES 发布会上，英伟达 CEO 黄仁勋通过一个名为「Cosmos」的平台点明了这一主题。简单来说，Cosmos 是一个世界模型平台，上面有一系列开源、开放权重的视频世界模型，参数量从 4B 到 14B 不等。

1/8/2025 1:12:26 PM

机器之心

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

本文的共同通讯作者为涂兆鹏和王瑞，涂兆鹏为腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过9000次。担任SCI期刊NeuroComputing副主编，多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授，研究方向为计算语言学。

1/8/2025 1:08:55 PM

机器之心

奥特曼家里也内讧了！亲妹告他长期虐待，刻意隐瞒遗产；家里其他人联名否认

我去，OpenAI CEO奥特曼的亲妹妹，一纸状书，把她亲哥给告了！想不到让奥特曼再次陷入舆论危机的矛头，这次居然来自家庭内部，来自小他9岁的妹妹安妮·奥特曼（Annie Altman）。事态紧急，奥特曼立刻联名母亲和两位弟弟，共同发布回应：不，指控不实。

1/8/2025 11:57:28 AM

量子位

金山云全面升级智算服务体系开启AI 2.0时代云计算发展新纪元

随着大模型落地应用，人工智能发展进入2.0时代。在此阶段，智算云服务加速演进，成为新一代人工智能发展的核心驱动力，展现出无限潜能。知名调研机构IDC发布的《中国智算服务市场（2024上半年）跟踪》报告显示，2024年上半年中国智算服务整体市场同比增长79.6%，市场规模达到146.1亿元人民币。

1/8/2025 11:38:53 AM

OpenAI天才团队学历大起底！没上大学也登顶，从辍学到硅谷传奇

想做出高大上的研究成果，真的需要一个博士学位才行吗？ OpenAI团队给出了振聋发聩的回答——「不需要！」OpenAI的四位著名成员Christopher Olah，Alec Radford，Jason Wei，Greg Brockman都没有博士学位。

1/8/2025 10:00:00 AM

新智元

Tokenization，再见！Meta提出大概念模型LCM，1B模型干翻70B？

最近，受人类构思交流的高层级思路启发，Meta AI研究员提出全新语言建模新范式「大概念模型」，解耦语言表示与推理。网友Chuby兴奋地表示：「如果Meta的大概念模型真的有用，那么同等或更高效率的模型，其规模将更小。比如说1B模型将堪比70B的Llama 4。

1/8/2025 9:30:00 AM

新智元

1/10训练数据超越GPT-4o！清华等提出隐式过程奖励模型PRIME，在线刷SOTA

告诉我，我会忘记，教我，我会记住，让我参与，我就能学会。 ——本杰明·富兰克林打破数据墙，我们还能做些什么？近日，来自清华UIUC等机构的研究者提出了PRIME（Process Reinforcement through IMplicit REwards）：通过隐式奖励来进行过程强化。

1/8/2025 9:00:00 AM

新智元

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

什么是大模型推理引擎大模型推理引擎是生成式语言模型运转的发动机，是接受客户输入 prompt 和生成返回 response 的枢纽，也是拉起异构硬件，将物理电能转换为人类知识的变形金刚。大模型推理引擎的基本工作模式可以概括为，接收包括输入 prompt 和采样参数的并发请求，分词并且组装成 batch 输入给引擎，调度 GPU 执行前向推理，处理计算结果并转为词元返回给用户。和人类大脑处理语言的机制类似，大模型首先会把输入的 prompt 进行统一理解，形成具有记忆能力的上下文。

1/8/2025 8:55:32 AM

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练，处理任意分辨率和长宽比的输入，在大规模监督和对比图像文本预训练中提高了训练效率，可以用于图像和视频分类、目标检测和语义分割，并在鲁棒性和公平性基准测试中取得了改进的结果。图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结：数据预处理：如上图展示了NaViT在处理任意分辨率的方法，将不同分辨率的图像分割成补丁（patches），然后应用令牌丢弃（token drop）操作，类似于dropout，以加速训练过程。预处理后，将三张图像生成的补丁展平为一个序列，不足的部分用填充（padding）补充。

1/8/2025 8:21:16 AM

余俊晖

如何使用Ollama在个人计算机上运行开源LLM

译者 | 刘涛审校 | 重楼如今，AI工具已变得司空见惯，你可能每天都在使用它们。保护你的个人和商业机密数据的关键途径之一，就是在自己的基础配置上运行自己的AI。本指南将向你介绍如何在自己的计算机上托管一个开源大语言模型（LLM）。

1/8/2025 8:00:00 AM

刘涛

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 OpenAI发布GPT-4.1指令提示工程指南 Midjourney图像编辑器迎来重大更新：全新UI、图层功能与智能工具上线

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊大型语言模型干货合集特斯拉 2024 AGI 训练

文章列表

具身智能新高度！智元机器人推出全球首个4D世界模型EnerVerse

如何证明一个数是无理数？他们找到了欧拉和黎曼错过的证明，华人数学家唐云清参与

讯飞商业生态平台2.0来了！构建大模型应用服务新体系

OpenAI智能体曝本月诞生！比谷歌Anthropic慢，竟是担心prompt攻击

特斯拉 Cybertruck 拉斯维加斯爆炸案细节曝光：嫌犯用 ChatGPT 协助策划

【LLM&Agent】PPTAgent：PPT自动生成Agent框架

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

黄仁勋圈重点的世界模型平台是个啥？技术报告全解析，华人贡献中坚力量

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

奥特曼家里也内讧了！亲妹告他长期虐待，刻意隐瞒遗产；家里其他人联名否认

金山云全面升级智算服务体系开启AI 2.0时代云计算发展新纪元​

OpenAI天才团队学历大起底！没上大学也登顶，从辍学到硅谷传奇

Tokenization，再见！Meta提出大概念模型LCM，1B模型干翻70B？

1/10训练数据超越GPT-4o！清华等提出隐式过程奖励模型PRIME，在线刷SOTA

0 Token 间间隔 100% GPU 利用率，百度百舸 AIAK 大模型推理引擎极限优化 TPS

【多模态&LLM】POINTS多模态大模型浅谈

如何使用Ollama在个人计算机上运行开源LLM

金山云全面升级智算服务体系开启AI 2.0时代云计算发展新纪元