大模型

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

中国电信人工智能研究院（TeleAI）在今年 5 月发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。时隔不到半年，TeleAI 星辰语音大模型的多方言能力再次升级，攻克了湛江话、宜宾话、洛阳话、烟台话等方言，将方言种类从 30 种提升至 40 种，并引入对英文的识别。与传统的有标注训练方法相比，TeleAI 通过预训练语音识别模型，利用海量无标注数据进行预训练，再通过少量有标注数据进行微调。

11/3/2024 9:37:53 AM

沛霖（实习）

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

11/1/2024 2:44:00 PM

新闻助手

独家丨字节招兵买马，拟在欧洲设立AI研发中心

知情人士透露，字节跳动目前已经开始寻找欧洲的 LLM 和 AI 方面技术大牛，积极招揽人才。而纵观欧洲各国的 AI 技术水平，瑞士、英国和法国相对靠前。其中，瑞士和英国都有不少知名院校。

10/31/2024 2:57:00 PM

晓楠

谷歌：Gemini API 用量 6 个月飙升 14 倍，明年将升级 AI 助手

科技媒体 The Decoder 昨日（10 月 30 日）发布博文，报道称谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）在最新季度财报电话会议上，宣布 Gemini API 用量在过去 6 个月内飙升了 14 倍。皮查伊表示谷歌已经在 Google Maps、Google Search 等核心业务中整合 Gemini，目前已初步覆盖 20 亿用户，此外独立 Gemini 应用和嵌入的 Android Assistant 也见证了强劲的用户增长。谷歌的云计算部门已经开始受益于人工智能的繁荣，收入增长了 35％，达到 114 亿美元，这包括人工智能和第三方服务，该部门的营业收入从去年的 2.7 亿美元增长到了 19.5 亿美元。

10/31/2024 2:49:52 PM

故渊

95 后创业者 VAST 宋亚宸：要做3D「抖音」内容平台

2022 年 9 月接近尾声的一天，Google 发布了文生 3D 技术DreamFusion，利用预训练的 2D 文本到图像扩散模型，提出SDS（score distillation scapling）方法，首次完成开放域文本到 3D的合成。听到这个消息时，宋亚宸非常激动，他在商汤时就很关注 3D 生成技术。 DreamFusion的发布对于整个3D领域是一个大的转折点，意味着 3D内容制作的成本和门槛趋近于零，虽然生成的 3D模型效果很差，但已经是一个大的技术变革。

10/31/2024 11:26:00 AM

张进

实时音视频领域拓荒者的十年

2015 年，声网将WebRTC大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的RTC（实时视音频）大会。在大会开始的前夕，现任声网市场VP、RTC大会主策人彭小欢失眠了，她非常担心明天会不会有人来。一晃十年过去了，当年的RTC大会早已升级为RTE（实时互联网）大会， 10 月 25 日RTE 2024也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

10/31/2024 10:31:00 AM

张进

Meta 推出 Llama 3.2 1B / 3B 模型量化版：功耗更低、可适用更多轻量移动设备

继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后，Meta 于 10 月 24 日发布了这两个模型的量化版本，量化后的模型大小平均减少了 56%，RAM 使用量平均减少了 41%，模型速度提高了 2 至 4 倍，同时降低了功耗，使这些模型能够部署到更多移动设备上。 AI在线注：模型量化（Model Quantization）就是通过各种训练方式将浮点模型转为定点模型，可以压缩模型参数，降低模型的复杂性，以便于在更轻量的平台运行。 Meta 表示，他们采用了量化感知训练（Quantization-Aware Training，QAT）和后训练量化（SpinQuant）两种方法对模型进行量化，其中“量化感知训练”更重视模型的准确性，而“后训练量化”更强调模型的可移植性。

10/27/2024 1:53:56 PM

漾仔

可令 AI 助理同时进行快 / 慢速思考，谷歌 DeepMind 公布具备两种思维模式的 Talker-Reasoner 框架

谷歌 DeepMind 上周公布了一个号称“具备两种思维模式”的 Talker-Reasoner 框架，旨在让 AI 助理能够同时进行快速和慢速思考，目前相关论文已发布于 ArXiv 上（点此访问）。据介绍，这款框架采用“双系统”设计，能够在与用户进行对话的同时并行多步骤推理任务（一边快速回答用户问题，一边高速思考），其中系统 1 Talker LLM 主要负责快速、直觉和合成的语言回应，用于与用户交谈。而系统 2 Reasoner LLM 则负责解决复杂问题，涉及从外界获取信息以增强知识，例如调用工具或从外部数据库检索信息，从而提升系统 1 回应内容的准确度及逻辑性。

10/27/2024 10:20:36 AM

漾仔

AI 驱动化学空间探索，大语言模型精准导航，直达目标分子

作者 | 「深度原理」陆婕妤编辑 | ScienceAI现代科学研究中，化学空间的探索是化学发现和材料科学的核心挑战之一。过渡金属配合物（TMCs）的设计中，由金属和配体组成的庞大化学空间为多目标优化的搜索带来了难度。为了解决这一问题，来自「深度原理」 (Deep Principle) 和康奈尔大学的研究者们开发了一种名为 LLM-EO（Large Language Model for Evolutionary Optimization）的新型工作流程算法，释放大型语言模型（LLM）的生成和预测潜能，显著提高了化学空间探索的效率。

10/25/2024 11:54:00 AM

ScienceAI

西湖大学发布 “AI 科学家” Nova，效果相比SOTA提升2.5倍

还记得今年夏天让众多科研工作者“瑟瑟发抖”的 AI scientist 吗？彼时的它，作为一个由谷歌Transformer 论文作者 Llion Jones 和前谷歌研究人员 David Ha 共同创立的全自动科学研究平台，从提出研究设想、检查创新程度，再到设计实验、编写程序、再GPU上执行实验并收集结果，到最后完成论文的撰写，一气呵成，让不少科研工作者早早就有了“事业危机感”。此外，该项目还获得了New Enterprise Associates、Khosla Ventures、Lux Capital等多家全球知名投资机构以及NVIDIA等产业投资人的投资，进一步推动了其技术突破和市场化落地。

10/23/2024 3:44:00 PM

郑佳美

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

编辑 | 萝卜皮优化候选分子的物理化学和功能特性一直是药物和材料设计中的一项关键任务。虽然人工智能很适合处理平衡多个（可能相互冲突的）优化目标的任务，但是例如多属性标记训练数据的稀疏性等技术挑战，长期以来阻碍了解决方案的开发。在最新的研究中，浙江大学侯廷军团队、中南大学曹东升团队以及碳硅智慧团队联合开发了一种分子优化工具 Prompt-MolOpt。

10/23/2024 2:06:00 PM

ScienceAI

英伟达新 nGPT 架构撬动 AI 未来：超球面学习提效，训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日（10 月 21 日）发布博文，报道称英伟达在训练 AI 模型方面取得重大突破，发布了最新的 Normalized Transformer（nGPT）新架构，保持模型的稳定性和准确性的前提下，可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”（Hyperspherical learning）这个概念。传统的变换器模型通常缺乏一致的几何框架，而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面，确保模型各层在训练过程中保持平衡。

10/22/2024 9:46:42 AM

故渊

霍尼韦尔与谷歌云合作，将生成式 AI Gemini 引入工业领域

霍尼韦尔（Honeywell）今日宣布与谷歌云（Google Cloud）进行合作，将生成式人工智能 Gemini 引入工业领域。霍尼韦尔是一家多元化高科技和制造企业，其业务涉及：航空产品和服务、楼宇、家庭和工业控制技术、汽车产品、涡轮增压器以及特殊材料等。霍尼韦尔首席执行官表示，人工智能可以帮助该公司解决劳动力短缺问题。

10/21/2024 9:19:03 PM

沛霖（实习）

把 AI 放进《我的世界》服务器：GPT-4o 杀牛宰羊，Claude3.5 把家拆了

把《我的世界》交给大模型，会怎么样？GPT-4o 鲨牛宰羊，Claude3.5 不停在人类身旁放炸药包和敌人，还把家拆了。GPT-4o mini 玩《我的世界》belike：来到游戏里面，GPT-4o mini（玩家 karolina）一开始还蛮礼貌的：你好世界！

10/21/2024 1:11:17 PM

清源

谷歌 Gemini Code Assist Enterprise 正式上线，可根据企业内部代码库生成 AI 见解

据谷歌官方新闻稿，谷歌 Gemini Code Assist Enterprise 企业 AI 现已正式上线，该 AI 工具号称可以帮助海外企业深入分析内部代码库，生成定制化的代码建议，帮助企业开发者充分利用各大谷歌云服务工具加速软件开发流程。AI在线获悉，Gemini Code Assist Enterprise 是谷歌 Gemini Code Assist 的企业定制版本，谷歌提到，标准版 Gemini Code Assist 主要侧重于根据开发者的上下文自动生成代码建议，而这一企业版主要根据企业内部的代码库生成代码建议，便于企业其他开发者维护。谷歌强调，Gemini Code Assist Enterprise 所使用的 Gemini 模型可以处理更多的上下文 Token，因此能够帮助开发者完成更复杂的任务（例如跨项目自动升级 Java 版本）。

10/19/2024 2:11:47 PM

漾仔

扎克伯格：联想基于 Meta Llama 大模型构建个人 AI 智能体 AI Now

感谢联想集团今日在美国西雅图召开年度 Tech World 大会。联想 CEO 杨元庆在主题演讲中，与 Meta 创始人兼 CEO 马克・扎克伯格一道宣布，联想与 Meta 合作基于 Llama 大模型推出面向 PC 的个人 AI 智能体 ——AI Now。扎克伯格通过视频在主题演讲上表示，联想与 Meta 已经合作多年，推出了许多卓越的创新成果，将突破性的 AI 和混合现实技术带给更多人，共同构建一个更加智能的未来。

10/16/2024 7:33:12 AM

苹果研究人员质疑 AI 的推理能力：简单数学问题稍作改动就会答错

近年来，人工智能（AI）在各个领域取得了显著的进展，其中大型语言模型（LLM）能够生成人类水平的文本，甚至在某些任务上超越人类的表现。然而，研究人员对 LLM 的推理能力提出了质疑，他们发现这些模型在解决简单的数学问题时，只要稍加改动，就会犯错误，这表明它们可能并不具备真正的逻辑推理能力。图源 Pexels周四，苹果公司的一组研究人员发布了一篇名为《理解大型语言模型中数学推理的局限性》的论文，揭示 LLM 在解决数学问题时容易受到干扰。

10/12/2024 8:51:38 AM

远洋

中国科学院团队发布GeneCompass：解析基因调控密码，打造干湿融合新范式

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI近年来，大语言模型（LLMs）已在自然语言、计算机视觉等通用领域引发了新一轮技术革命，通过大规模语料和模型参数进行预训练，LLMs能够掌握语言的共性规律，能够对多种下游任务产生质的提升，已经形成了新的人工智能范式。在生命科学领域，单细胞组学技术的突破产生了大量不同物种细胞的基因表达谱数据，形成了海量的生命「语料」。如果把基因表达值看作单词，组合在一起构成细胞「句子」，进而形成组织「段落」和器官「文章」，并将不同物种作为生命「语种」，利用LLMs相关技

10/8/2024 2:03:00 PM

ScienceAI

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型