文章列表

分类

标签

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

12/17/2024 12:08:21 PM

ChatGPT搜索与Her打通了！搜索免费开放，居然还剧透明日直播主题

ChatGPT今天带来的是搜索功能方面的一些迭代升级（更像谷歌了）。主要有三点，私以为最大亮点是第二：根据用户反馈，优化搜索体验，移动端搜索更快，并能搜索出多模态信息；结合前几日发布的Her功能，可以在实时通话的时候进行语音搜索；免费，接下来逐步向所有ChatGPT用户开放。官方信息显示，ChatGPT Search背后是微调后的GPT-4o模型，使用新颖的合成数据生成技术进行post-trained（包括从OpenAI o1-preview中提炼输出合成数据）。

12/17/2024 8:25:00 AM

量子位

华为诺亚解析：推荐系统的技术演进及大模型应用实践

一、推荐系统问题和背景首先来简要介绍一下个性化推荐系统。实际上，我们每个人每天都在与众多推荐系统进行交互。例如，购买衣物、阅读新闻或聆听音乐时，我们打开的每一个应用程序或网页，其展示的内容即为推荐系统所呈现。

12/17/2024 8:11:27 AM

刘卫文

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型，并在Colab笔记本上探索其多模态技能。简介视觉功能与大型语言模型（LLM）的集成正在通过多模态LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，在图像理解和推理方面表现出令人印象深刻的能力。

12/17/2024 8:05:34 AM

朱先忠

OpenAI 为 ChatGPT 增加实时搜索功能，逐步向所有用户免费开放

用户可以获得快速、及时的答案，并附有相关网络来源的链接。ChatGPT 会根据用户的要求进行搜索，或通过点击网络搜索图标手动进行搜索。

12/17/2024 7:39:02 AM

沛霖（实习）

谷歌 Gemini 2.0 成“P 图神器”，各种 P 图只需一句话

输入指令“把这辆车改装成敞篷车”，它就能立马将文字指令和图片结合起来，完成一键 P 图。

12/16/2024 10:49:09 PM

汪淼

微软 CEO 纳德拉力挺 OpenAI：在人工智能竞赛中领先两年，几乎“没有竞争对手”

据《商业内幕（Business Insider）》报道，微软首席执行官萨提亚·纳德拉最近表示，OpenAI在人工智能领域拥有两年的领先优势，使其几乎“没有竞争对手”（pretty much uncontested）。

12/16/2024 7:25:33 PM

清源

Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

最近，Ilya在NeurIPS 2024中宣布：预训练结束了！在他看来，数据如同化石燃料般难以再生，因此训练模型需要的海量数据即将枯竭。作为前OpenAI首席科学家，Ilya的这番话，有可能影响之后数十年的AI发展方向。

12/16/2024 6:20:32 PM

新智元

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调（Reinforcement Finetuning，ReFT），能够让模型利用CoT进行多步推理之后，通过强化学习让最终输出符合人类偏好。无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域的「图像链CoT」。与OpenAI不谋而和的是，机器学习与感知（MAPLE）实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程，论文指出利用与人类奖励对齐的强化学习监督训练，能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度，用更少的步数生成高质量图像内容。

12/16/2024 5:44:18 PM

新智元

全球首个全模态理解开源端模型：长语音自动总结，图文音啥都会！300%推理速度领先，来自无问芯穹

全球首个端侧全模态理解开源模型来了！在菜单里帮忙选奶茶，不在话下：还能帮忙轻松提炼长语音，再也不用对着一串几十秒语音头皮发麻（doge）。就在刚刚，无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型Megrez-3B-Omni，不仅体积轻巧，速度飞快，更是一个多才多艺的全能选手，能够轻松处理图片、音频、文本三种模态数据。

12/16/2024 4:10:15 PM

世界模型进入4D时代！单视角视频构建的自由视角4D世界来了

人工智能技术正以前所未有的速度改变着我们对世界的认知与构建方式。近期，李飞飞教授团队通过单张图片生成三维物理世界的研究，再次向世界展示了空间智能技术的巨大潜力。单图生成三维世界，不仅让人们能以交互方式探索静态图像，更标志着 AI 在重建与理解物理场景方面迈入全新阶段。

12/16/2024 2:40:00 PM

机器之心

OpenAI启动ChatGPT Projects，让你可以组织文件、分组聊天

OpenAI最新发布的ChatGPT . Projects，解决了在ChatGPT上整理文件和对话的需求，该功能与谷歌广受欢迎的NotebookLM应用类似。在“OpenAI 12日”直播活动的第六天，该公司推出了ChatGPT .

12/16/2024 2:20:55 PM

Emilia David

Bengio参与的首个《AI安全指数报告》出炉，最高分仅C、国内一家公司上榜

图片安全话题，在人工智能（AI）行业一向备受关注。尤其是诸如 GPT-4 这样的大语言模型（LLM）出现后，有不少业内专家呼吁「立即暂停训练比 GPT-4 更强大的人工智能模型」，包括马斯克在内的数千人纷纷起身支持，联名签署了一封公开信。这封公开信便来自生命未来研究所（Future of Life Institute），该机构由麻省理工学院教授、物理学家、人工智能科学家、《生命 3.0》作者 Max Tegmark 等人联合创立，是最早关注人工智能安全问题的机构之一，其使命为 “引导变革性技术造福生活，避免极端的大规模风险”。

12/16/2024 2:20:00 PM

机器之心

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

3 个月前，MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间，海螺 AI 的网页版访问量便增速超 800%，还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。一时间，不少国内网友直呼其为“国产之光”。

12/16/2024 2:04:00 PM

郑佳美

月薪1万4的ChatGPT要来了！OpenAI自曝其达博士级别，网友：我宁可聘请一个博士

博士级别的ChatGPT可能要来了，但价格比每月工资还高？！这是真的。

12/16/2024 11:00:15 AM

OpenAI官方爆料，长文开怼马斯克：靠打官司实现不了AGI！

OpenAI与马斯克的法律战已经持续了数月之久。其核心指控围绕着「OpenAI早已背离了原有的非营利使命」，也就是让自己的AI研究成果惠及所有人。上个月，事态进一步升级，马斯克向法院提出禁令申请，试图阻止OpenAI正在进行的从非营利组织向营利性公司的转型。

12/16/2024 10:30:00 AM

新智元

王小川当场自曝：为什么百川不做Sora；生命科学是下一个互联网；大模型创业有两大误区；AGI5年后就会到来；如何从投资人拿到融资

编辑｜言征出品 | 51CTO技术栈（微信号：blog51cto）王小川不止搞大模型，这次真的要在医疗行业搞出大动静来了！ 12月14日上午，百川智能王小川在与极客公园创始人张鹏进行了一场圆桌对话。对话中，王小川公开透露了进入下半年来，有些低调的百川究竟在做什么事情，更是抖出了很多有关百川智能成立前后的趣事，比如百川的“百”是怎么得来的，以及如何跑步入场赢得投资人信任、拿到融资的，并详细阐述了在中美博弈的环境下，自己在大模型和业务场景如何做考量的创始人逻辑，信息密度很大。

12/16/2024 9:21:24 AM

言征

万字独家爆光，首揭o1 pro架构！惊人反转，Claude 3.5 Opus没失败？

大模型Scaling Law终结，前段时间曾被吵得沸沸扬扬。面对诸多的质疑，硅谷巨头们用行动给出了截然不同的答案。谷歌祭出最强下一代新模型Gemini 2.0 Flash，并带着多个智能体一同亮相；OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

12/16/2024 9:00:00 AM

新智元

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 OpenAI发布GPT-4.1指令提示工程指南 Midjourney图像编辑器迎来重大更新：全新UI、图层功能与智能工具上线

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊大型语言模型干货合集特斯拉 2024 AGI 训练