文章列表

分类

标签

星尘智能获数千万美元融资，专注 AI 机器人商业化；OpenAI 部分开放 GPT-4o 语音，今秋扩至所有付费用户丨AI情报局

今日融资快报人形机器人星尘智能获数千万美元 Pre-A 轮融资，专注 AI 机器人商业化AI机器人公司星尘智能（Astribot）宣布完成数千万美元Pre-A轮融资，由经纬创投领投，道彤投资及清辉投资等产业资本跟投，老股东云启资本跟投。华兴资本担任独家财务顾问。星尘智能于2022年12月在深圳成立，致力于让数十亿人拥有AI机器人助理。

8/1/2024 10:29:00 AM

我在思考中

相爱相杀：微软将 OpenAI 列为人工智能及搜索领域的竞争对手

微软与 OpenAI 的关系变得更加复杂。微软在提交给美国证券交易委员会（SEC）的 10-K 文件中，正式将 OpenAI 列为竞争对手，名单中还包括此前一直存在的亚马逊、谷歌和 Meta 等公司。尽管微软是 OpenAI 的最大投资者，已向其注资约 130 亿美元（AI在线备注：当前约 939.17 亿元人民币），并作为其独家云服务提供商，将 OpenAI 的 AI 模型应用于商业和消费类产品，但两家公司之间的合作关系似乎正在发生微妙变化。在文件中，微软将 ChatGPT 聊天机器人的创建者 OpenAI 确定

8/1/2024 9:55:43 AM

远洋

每月花费近 2000 万美元，消息称 TikTok 成为微软 AI 服务最大客户之一

感谢根据 The Information 当地时间 31 日的报道，截至今年 3 月份，TikTok 每月向微软支付近 2000 万美元（AI在线备注：当前约 1.45 亿元人民币），以通过微软购买 OpenAI 的模型。这笔金额几乎占据了微软 AI 收入的四分之一，也使 TikTok 成为微软 AI 服务的最大客户之一。在全球云计算市场的竞争中，微软通过整合 OpenAI 的人工智能技术，成功地将其云服务转化为一项利润丰厚的业务。微软的云 AI 业务有望实现年收入 10 亿美元（当前约 72.48 亿元人民币），

8/1/2024 7:31:59 AM

清源

Midjourney v6.1 更新！四大重磅新功能和用法详细解析

大家好，这是和你们一起探索 AI 的花生~ 昨天 Midjourney 发布了新的 v6.1 模型，其图像质量比之前更好，此外还对高清放大、质量参数、个性化模型等功能做了调整，今天就为大家详细介绍一下此次更新的内容。一、生成质量 & 美学提升 v 6.1 模型在生成质量上又有了进一步的优化提升，图像更清晰锐利，增强了纹理、皮肤以及 8-bit 像素画的表现效果，画面细节更精致。直接来看两组对比，一组写实摄影，一组插画。其实 v6 的生成效果单看的话已经非常不错了，但和 v6.1 放在一起时，就会发现二者差别还是挺

8/1/2024 7:25:17 AM

夏花生

ChatGPT的高级语音模式终于上线了：中文一开口，就暴露了「歪果仁」身份

OpenAI 的「Her」终于向部分人群开放了。今年 5 月，OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。现在，OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒，并收到一封电子邮件，其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来，我们一直致力于加强语音对话的安全性和质量，准备

7/31/2024 5:08:00 PM

机器之心

视频生成赛道再添“猛将”，智谱清影正式上线

年初 Sora 横空出世，验证了 Scalling Law 在视频生成方面的有效性。但 Sora 始终止步于公开的 60 秒 demo，产品落地计划迟迟未有公开。随后的半年时间，不少“玩家”继续在AI视频生成赛道展开角逐，并逐步实现落地。

7/31/2024 2:36:00 PM

朱可轩

厦大团队材料预测迁移学习范式登Nature子刊，发现高性能催化剂

编辑 | KX传统的材料发现依赖反复试验或偶然发现，效率低下且成本高昂。AI 在发现新型催化剂方面潜力巨大。然而，受到算法的选择，以及数据质量和数量的影响。在此，来自厦门大学、深圳大学、武汉大学、南京航空航天大学和英国利物浦大学的研究团队开发了一种迁移学习范式，结合了预训练模型、集成学习和主动学习，能够预测未被发现的钙钛矿氧化物，并增强该反应的通用性。通过筛选 16,050 种成分，鉴定和合成了 36 种新的钙钛矿氧化物，其中包括 13 种纯钙钛矿结构。Pr0.1Sr0.9Co0.5Fe0.5O3（PSCF）和 P

7/31/2024 2:18:00 PM

ScienceAI

OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式，可提供更自然实时对话

当地时间 30 日，OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式（AI在线注：Alpha 版本），并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。今年 5 月，OpenAI 首席技术官米拉・穆拉蒂（Mira Murati）在演讲中提到：在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型，因此我们在探索该模型的功能及其局限性方面仍处

7/31/2024 6:54:40 AM

清源

ComfyUI神级插件！在PS中轻松实现 AI 图像生成、放大和重绘

大家好，这里是和你们一起探索 AI 的花生~ 今天为大家推荐一款我最近发现的非常厉害的 ComfyUI 插件 comfyui-photoshop，它由程序员 Nami 独立开发，将 ComfyUI 做为后端接入 Ps 中，借助其强大的 AI 生成能力，实现文生图、图生图、高清放大、局部重绘、外绘拓展等多种功能。我也安装了这款插件，这个过程并不复杂，AI 出图非常稳定，软件之间的交互也非常顺畅；因为使用了 LCM lora，所以出图速度也非常快，可以做为 Ps 原生 AI 功能的平替，而且功能更多样。今天就为大家详

7/31/2024 6:44:29 AM

夏花生

寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯：虚拟试衣新框架，只需两张图 30 秒即生成

只需两张图像，不到 30 秒，就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子，还是套装，各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外，CatVTON 还可以实现人物 A 到人物 B 的

7/30/2024 8:57:58 PM

汪淼

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]作者介绍：宋亦仁：新加坡国立大学 ShowLab 博士研究生，主要研究方向包括图像和视频生成， AI 安全性。黄施捷：新加坡国立大学硕士二年级学生，目前在 Tiamat AI 任算法工

7/30/2024 11:00:00 AM

机器之心

15000字干货！AI搜索产品如何做好用户体验设计？

最近在使用 360AI 搜索的时候遇到一个比较严重的产品设计问题，非常影响体验。在 360AI 搜索首页，和普通搜索产品类似，有信息流和今日热搜两个模块。昨天偶然看到一条热搜是「工资四千月工作 300h」，这个标题确实很吸引人，所以作者打开了这条热搜想看看详细信息，结果打开的页面内容是这样的：标题和内容完全对不上！原因也简单，360AI 搜索使用了大模型能力对输入的信息进行了处理，而不是点击这条热搜新闻直接打开一个链接。按照传统的搜索引擎的做法一般是把关键词“月薪 4000 工作 300 小时”匹配到各个新闻

7/30/2024 8:36:46 AM

杜昭⁰

Llama3.1 训练平均 3 小时故障一次，H100 万卡集群好脆弱，气温波动都会影响吞吐量

每 3 个小时 1 次、平均 1 天 8 次，Llama 3.1 405B 预训练老出故障，H100 是罪魁祸首？最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点：Llama 3.1 在为期 54 天的预训练期间，经历了共 466 次任务中断。其中只有 47 次是计划内的，419 次纯属意外，意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重，占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群

7/29/2024 5:54:34 PM

清源

GPT-4o mini 凭什么登顶竞技场？OpenAI 刷分秘诀被扒，原来奥特曼早有暗示

为啥 GPT-4o mini 能登顶大模型竞技场？？原来是 OpenAI 会刷分呀。这两天，lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一，把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了，大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明，表示大家别只看总榜，还要更关注细分领域的情况。也没能让大家满意，不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于，官方晒出了一份完整数据，展示了 GPT-4o mini 参与的 1000

7/29/2024 5:49:58 PM

远洋

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

7/29/2024 4:20:08 PM

清源

AI 歌曲生成神器 Udio 重磅更新！可拆分音轨/控制音调/中文优化明显

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家推荐过的 AI 歌曲生成神器 Udio 最近推出了最新的 v1.5 模型，整体生成质量比之前有了大幅提升；还新增了音调控制、音轨拆分、音乐视频一键分享等新功能，使用更方便；中文歌曲的表现也比之前好很多，今天就一起来看看此次更新的具体细节。还不了解 Udio 小伙伴可以先看这里：一、生成质量整体大提升 Udio 官网直达：在 4 月份刚推出的时候，Udio 虽然在歌曲质量上令人惊艳，但是只能生成 32s 的音乐片段，无法直接构成一首完整的歌曲，因此整体效果

7/29/2024 7:31:51 AM

夏花生

让输出结果更稳定！超好用的 GPTs “窗口定向”策略

在前面几篇我分别讲解了 GPT 的基本使用、高阶技巧和 GPTs 的创建。GPTs 确实很好用，当我们预设好 prompt，可以创建一个个专属的、定向输出的 GPT 助手。然而，我在使用 GPTs 的过程中遇到了一个问题：每次使用自己创建的 GPTs 时，输出的结果仍存在随机性，难以保证一致的格式和风格。这增加了我对预设 Prompt 的顾虑，我开始的时候怀疑是因为我的 Prompt 定义的不够清楚，开始反复调试，并针对输出格式做三令五申般的限制，但在测试中仍然发现 GPT 的输出具有不稳定性。为了应对这一问题，

7/29/2024 12:12:53 AM

小普

AI有哪些提高效率的落地应用场景？实战案例来了！

如果说今年的风口，那一定是 AI。不过 AI 像一把双刃剑，既有助益也有风险。我们将从 IBM Watson 的高飞与坠落，到 Google Allo 的黯然失色，探索 AI 应用中的教训。同时，瑞幸咖啡的成功故事展现了凭借策略得当的 AI 应用，即使在困境中也能崛起。通过 ChatGPT 实践案例，我们进一步揭示 AI 在日常工作中的潜能，从 PRD 文档编写到内容管理的自动化。最后，我们讨论如何与 AI 高效交流，确保 AI 是成为推动进步的力量而非阻碍。在整篇文章中，我将分享 AI 的正确应用价值，和如何嵌入

7/29/2024 12:02:29 AM

小普

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 AI视频用哪个？6个知名的AI视频工具使用测评报告 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI发布GPT-4.1指令提示工程指南别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 Midjourney图像编辑器迎来重大更新：全新UI、图层功能与智能工具上线

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达人形机器人 Transformer 百度 AI视频苹果深度学习模态 xAI 字节跳动驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练