应用
每月花费近 2000 万美元,消息称 TikTok 成为微软 AI 服务最大客户之一
感谢根据 The Information 当地时间 31 日的报道,截至今年 3 月份,TikTok 每月向微软支付近 2000 万美元(AI在线备注:当前约 1.45 亿元人民币),以通过微软购买 OpenAI 的模型。这笔金额几乎占据了微软 AI 收入的四分之一,也使 TikTok 成为微软 AI 服务的最大客户之一。在全球云计算市场的竞争中,微软通过整合 OpenAI 的人工智能技术,成功地将其云服务转化为一项利润丰厚的业务。微软的云 AI 业务有望实现年收入 10 亿美元(当前约 72.48 亿元人民币),
Midjourney v6.1 更新!四大重磅新功能和用法详细解析
大家好,这是和你们一起探索 AI 的花生~
昨天 Midjourney 发布了新的 v6.1 模型,其图像质量比之前更好,此外还对高清放大、质量参数、个性化模型等功能做了调整,今天就为大家详细介绍一下此次更新的内容。一、生成质量 & 美学提升
v 6.1 模型在生成质量上又有了进一步的优化提升,图像更清晰锐利,增强了纹理、皮肤以及 8-bit 像素画的表现效果,画面细节更精致。
直接来看两组对比,一组写实摄影,一组插画。其实 v6 的生成效果单看的话已经非常不错了,但和 v6.1 放在一起时,就会发现二者差别还是挺
ChatGPT的高级语音模式终于上线了:中文一开口,就暴露了「歪果仁」身份
OpenAI 的「Her」终于向部分人群开放了。今年 5 月,OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。现在,OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式,让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封电子邮件,其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来,我们一直致力于加强语音对话的安全性和质量,准备
视频生成赛道再添“猛将”,智谱清影正式上线
年初 Sora 横空出世,验证了 Scalling Law 在视频生成方面的有效性。 但 Sora 始终止步于公开的 60 秒 demo,产品落地计划迟迟未有公开。 随后的半年时间,不少“玩家”继续在AI视频生成赛道展开角逐,并逐步实现落地。
OpenAI 向部分付费订阅用户开放 GPT-4o 语音模式,可提供更自然实时对话
当地时间 30 日,OpenAI 宣布即日起向部分 ChatGPT Plus 用户开放 GPT-4o 的语音模式(AI在线注:Alpha 版本),并将于今年秋季逐步推广至所有 ChatGPT Plus 订阅用户。今年 5 月,OpenAI 首席技术官米拉・穆拉蒂(Mira Murati)在演讲中提到:在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的功能及其局限性方面仍处
ComfyUI神级插件!在PS中轻松实现 AI 图像生成、放大和重绘
大家好,这里是和你们一起探索 AI 的花生~
今天为大家推荐一款我最近发现的非常厉害的 ComfyUI 插件 comfyui-photoshop,它由程序员 Nami 独立开发,将 ComfyUI 做为后端接入 Ps 中,借助其强大的 AI 生成能力,实现文生图、图生图、高清放大、局部重绘、外绘拓展等多种功能。
我也安装了这款插件,这个过程并不复杂,AI 出图非常稳定,软件之间的交互也非常顺畅;因为使用了 LCM lora,所以出图速度也非常快,可以做为 Ps 原生 AI 功能的平替,而且功能更多样。今天就为大家详
寡姐带货国风 Polo 衫、马斯克穿牛仔走红毯:虚拟试衣新框架,只需两张图 30 秒即生成
只需两张图像,不到 30 秒,就能让马斯克穿牛仔走红毯~或者让寡姐带货国风 Polo 衫~就是二次元换装也不在话下。来自中山大学、Pixocial 等机构联合发布轻量化模型架构 CatVTON。他们是以 Stable Diffusion v1.5 inpainitng 为基础模型。来看看更多效果。用扩散模型进行虚拟试衣CatVTON 可以实现传统平铺服装图到人物的换装。不管是上衣、裤子、裙子,还是套装,各种不同品类服装都可以。其形状和纹理都能保持较高的一致性。另外,CatVTON 还可以实现人物 A 到人物 B 的
只要一张图就能「还原」绘画过程,这篇论文比爆火的Paints-UNDO实现得更早
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]作者介绍:宋亦仁:新加坡国立大学 ShowLab 博士研究生, 主要研究方向包括图像和视频生成, AI 安全性。 黄施捷:新加坡国立大学硕士二年级学生,目前在 Tiamat AI 任算法工
15000字干货!AI搜索产品如何做好用户体验设计?
最近在使用 360AI 搜索的时候遇到一个比较严重的产品设计问题,非常影响体验。
在 360AI 搜索首页,和普通搜索产品类似,有信息流和今日热搜两个模块。昨天偶然看到一条热搜是「工资四千月工作 300h」,这个标题确实很吸引人,所以作者打开了这条热搜想看看详细信息,结果打开的页面内容是这样的:标题和内容完全对不上!
原因也简单,360AI 搜索使用了大模型能力对输入的信息进行了处理,而不是点击这条热搜新闻直接打开一个链接。
按照传统的搜索引擎的做法一般是把关键词“月薪 4000 工作 300 小时”匹配到各个新闻
Llama3.1 训练平均 3 小时故障一次,H100 万卡集群好脆弱,气温波动都会影响吞吐量
每 3 个小时 1 次、平均 1 天 8 次,Llama 3.1 405B 预训练老出故障,H100 是罪魁祸首?最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点:Llama 3.1 在为期 54 天的预训练期间,经历了共 466 次任务中断。其中只有 47 次是计划内的,419 次纯属意外,意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重,占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群
GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示
为啥 GPT-4o mini 能登顶大模型竞技场??原来是 OpenAI 会刷分呀。这两天,lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一,把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了,大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明,表示大家别只看总榜,还要更关注细分领域的情况。也没能让大家满意,不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于,官方晒出了一份完整数据,展示了 GPT-4o mini 参与的 1000
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
AI 歌曲生成神器 Udio 重磅更新!可拆分音轨/控制音调/中文优化明显
大家好,这里是和你们一起探索 AI 的花生~
之前为大家推荐过的 AI 歌曲生成神器 Udio 最近推出了最新的 v1.5 模型,整体生成质量比之前有了大幅提升;还新增了音调控制、音轨拆分、音乐视频一键分享等新功能,使用更方便;中文歌曲的表现也比之前好很多,今天就一起来看看此次更新的具体细节。
还不了解 Udio 小伙伴可以先看这里:一、生成质量整体大提升
Udio 官网直达:
在 4 月份刚推出的时候,Udio 虽然在歌曲质量上令人惊艳,但是只能生成 32s 的音乐片段,无法直接构成一首完整的歌曲,因此整体效果
让输出结果更稳定!超好用的 GPTs “窗口定向”策略
在前面几篇我分别讲解了 GPT 的基本使用、高阶技巧和 GPTs 的创建。GPTs 确实很好用,当我们预设好 prompt,可以创建一个个专属的、定向输出的 GPT 助手。然而,我在使用 GPTs 的过程中遇到了一个问题:每次使用自己创建的 GPTs 时,输出的结果仍存在随机性,难以保证一致的格式和风格。这增加了我对预设 Prompt 的顾虑,我开始的时候怀疑是因为我的 Prompt 定义的不够清楚,开始反复调试,并针对输出格式做三令五申般的限制,但在测试中仍然发现 GPT 的输出具有不稳定性。
为了应对这一问题,
AI有哪些提高效率的落地应用场景?实战案例来了!
如果说今年的风口,那一定是 AI。不过 AI 像一把双刃剑,既有助益也有风险。我们将从 IBM Watson 的高飞与坠落,到 Google Allo 的黯然失色,探索 AI 应用中的教训。同时,瑞幸咖啡的成功故事展现了凭借策略得当的 AI 应用,即使在困境中也能崛起。通过 ChatGPT 实践案例,我们进一步揭示 AI 在日常工作中的潜能,从 PRD 文档编写到内容管理的自动化。最后,我们讨论如何与 AI 高效交流,确保 AI 是成为推动进步的力量而非阻碍。在整篇文章中,我将分享 AI 的正确应用价值,和如何嵌入
OpenAI SearchGPT 官方演示大翻车,源代码竟暴露搜索机制
SearchGPT 发布刚过两天,已有人灰度测试到了。今天,网友 Kesku 自制的 demo 全网刷屏,SearchGPT 结果输出如此神速,让所有人为之震惊。当询问 Porter Robinson 出了新唱片吗?只见,SearchGPT 眨眼功夫之间,即刻给出了答案「Smile」,最后还附上了链接。再来看移动版本的回答速度,回答延迟几乎为 0。评论区下方,震惊体铺屏。但另一方面,OpenAI 当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时,
密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR
自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。 大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。 随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以