文章列表
只要一张图就能「还原」绘画过程,这篇论文比爆火的Paints-UNDO实现得更早
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]作者介绍:宋亦仁:新加坡国立大学 ShowLab 博士研究生, 主要研究方向包括图像和视频生成, AI 安全性。 黄施捷:新加坡国立大学硕士二年级学生,目前在 Tiamat AI 任算法工
15000字干货!AI搜索产品如何做好用户体验设计?
最近在使用 360AI 搜索的时候遇到一个比较严重的产品设计问题,非常影响体验。
在 360AI 搜索首页,和普通搜索产品类似,有信息流和今日热搜两个模块。昨天偶然看到一条热搜是「工资四千月工作 300h」,这个标题确实很吸引人,所以作者打开了这条热搜想看看详细信息,结果打开的页面内容是这样的:标题和内容完全对不上!
原因也简单,360AI 搜索使用了大模型能力对输入的信息进行了处理,而不是点击这条热搜新闻直接打开一个链接。
按照传统的搜索引擎的做法一般是把关键词“月薪 4000 工作 300 小时”匹配到各个新闻
Llama3.1 训练平均 3 小时故障一次,H100 万卡集群好脆弱,气温波动都会影响吞吐量
每 3 个小时 1 次、平均 1 天 8 次,Llama 3.1 405B 预训练老出故障,H100 是罪魁祸首?最近有人从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点:Llama 3.1 在为期 54 天的预训练期间,经历了共 466 次任务中断。其中只有 47 次是计划内的,419 次纯属意外,意外中 78% 已确认或怀疑是硬件问题导致。而且 GPU 问题最严重,占了 58.7%。Llama 3.1 405 模型是在一个含 16384 块 Nvidia H100 80GB GPU 集群
GPT-4o mini 凭什么登顶竞技场?OpenAI 刷分秘诀被扒,原来奥特曼早有暗示
为啥 GPT-4o mini 能登顶大模型竞技场??原来是 OpenAI 会刷分呀。这两天,lmsys 竞技场公布了一份充满争议的榜单。其中才面世不久的 GPT-4o mini 和满血版并列第一,把 Claude 3.5 Sonnet 甩在身后。结果网友炸锅了,大家凭体感觉得这不可能。哪怕后面 lmsys 做过一次声明,表示大家别只看总榜,还要更关注细分领域的情况。也没能让大家满意,不少人觉得 lmsys 就是从 OpenAI 那收钱了。终于,官方晒出了一份完整数据,展示了 GPT-4o mini 参与的 1000
英伟达最新技术分享:手把手教你用 Llama 3.1 合成数据改进模型!附代码
适逢 Llama 3.1 模型刚刚发布,英伟达就发表了一篇技术博客,手把手教你如何好好利用这个强大的开源模型,为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近,结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了,Nemotron 9T token 的预训练预料中,98% 都是合成数据。也许你还对合成数据存在顾虑,或者不知道如何应用 LLM 驱动数据生成。或许,英伟达的这篇博客可以提供答案。原文地址:,用 LLM 合成数据的本质究
AI 歌曲生成神器 Udio 重磅更新!可拆分音轨/控制音调/中文优化明显
大家好,这里是和你们一起探索 AI 的花生~
之前为大家推荐过的 AI 歌曲生成神器 Udio 最近推出了最新的 v1.5 模型,整体生成质量比之前有了大幅提升;还新增了音调控制、音轨拆分、音乐视频一键分享等新功能,使用更方便;中文歌曲的表现也比之前好很多,今天就一起来看看此次更新的具体细节。
还不了解 Udio 小伙伴可以先看这里:一、生成质量整体大提升
Udio 官网直达:
在 4 月份刚推出的时候,Udio 虽然在歌曲质量上令人惊艳,但是只能生成 32s 的音乐片段,无法直接构成一首完整的歌曲,因此整体效果
让输出结果更稳定!超好用的 GPTs “窗口定向”策略
在前面几篇我分别讲解了 GPT 的基本使用、高阶技巧和 GPTs 的创建。GPTs 确实很好用,当我们预设好 prompt,可以创建一个个专属的、定向输出的 GPT 助手。然而,我在使用 GPTs 的过程中遇到了一个问题:每次使用自己创建的 GPTs 时,输出的结果仍存在随机性,难以保证一致的格式和风格。这增加了我对预设 Prompt 的顾虑,我开始的时候怀疑是因为我的 Prompt 定义的不够清楚,开始反复调试,并针对输出格式做三令五申般的限制,但在测试中仍然发现 GPT 的输出具有不稳定性。
为了应对这一问题,
AI有哪些提高效率的落地应用场景?实战案例来了!
如果说今年的风口,那一定是 AI。不过 AI 像一把双刃剑,既有助益也有风险。我们将从 IBM Watson 的高飞与坠落,到 Google Allo 的黯然失色,探索 AI 应用中的教训。同时,瑞幸咖啡的成功故事展现了凭借策略得当的 AI 应用,即使在困境中也能崛起。通过 ChatGPT 实践案例,我们进一步揭示 AI 在日常工作中的潜能,从 PRD 文档编写到内容管理的自动化。最后,我们讨论如何与 AI 高效交流,确保 AI 是成为推动进步的力量而非阻碍。在整篇文章中,我将分享 AI 的正确应用价值,和如何嵌入
FBI-LLM低比特基础大语言模型来了,首个完全从头训练的二值化语言模型
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]作者介绍:论文一作Liqun Ma目前是MBZUAI机器学习系的博士生,导师为Zhiqiang Shen助理教授,同时也是该论文的最后作者,其在加入MBZUAI之前为CMU博士后,研究领域
OpenAI SearchGPT 官方演示大翻车,源代码竟暴露搜索机制
SearchGPT 发布刚过两天,已有人灰度测试到了。今天,网友 Kesku 自制的 demo 全网刷屏,SearchGPT 结果输出如此神速,让所有人为之震惊。当询问 Porter Robinson 出了新唱片吗?只见,SearchGPT 眨眼功夫之间,即刻给出了答案「Smile」,最后还附上了链接。再来看移动版本的回答速度,回答延迟几乎为 0。评论区下方,震惊体铺屏。但另一方面,OpenAI 当天放出的官方演示,被外媒《大西洋月刊》曝出其中的问题。在回答「8 月在北卡罗来纳 Boone 举办的音乐节」的问题时,
密苏里大学许东:大模型时代,Prompt 为生物信息学研究带来新动力丨IJAIRR
自ChatGPT在2022年横空出世,人工智能领域便迎来了一场新的革命。 大语言模型(LLMs)以其卓越的文本处理能力,迅速成为研究者和开发者的新宠。 随着这些模型的崛起,如何与它们有效交互的问题也日益凸显,提示词(Prompt)的概念逐渐成为研究的热点。
为什么AI数不清Strawberry里有几个 r?Karpathy:我用表情包给你解释一下
让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗?不知道 9.11 和 9.9 哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以
大厂实战案例!如何用AIGC快速完成IP设计?
在公司接到一个 IP 形象的设计需求?作为乙方接到了甲方的 IP 设计?想要给自己设计一个 IP 形象?我知道你很急,但是请先别急,AIGC 也能做 IP!
本文邀请大家围观设计师是如何借助 AI 快速生产出 “图图”IP 的~一、图图是谁?为什么要做?
“图图“是 58 最新开发的图库平台-图狗 TUGO 的 IP 形象,本文将为大家带来 AIGC 是如何帮助设计师更高效地进行 IP 形象设计,为 IP 设计提供全新的创作方式和灵感。
IP 形象设计作为品牌设计延伸的一种,承载着品牌的独特性与想象空间。在品牌宣传
“AI 分析师”登陆华尔街,摩根大通开始内部推广聊天机器人
据《金融时报》今日报道,摩根大通开始在公司内部推出一款生成式 AI 产品,并告诉员工这款“自有版本的 ChatGPT”可以完成研究分析师的工作。▲ 图源摩根大通报道援引摩根大通内部备忘录称,该公司已经向其资产和财富管理部门的员工提供了一个名为 LLM Suite 的大型语言模型平台。高管们告诉员工,LLM Suite 可以通过访问第三方模型帮助他们撰写、生成创意和总结文件。LLM Suite 被描述为一个“类似 ChatGPT 的产品”,用于“通用生产力”领域。知情人士表示,摩根大通今年早些时候开始向部分银行员工推
大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容
Meta、OpenAI 等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新 ——即日起,Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动。与之前的版本相比,窗口长度提高到了 4 倍,响应速度也更快了。按照谷歌的介绍,新版聊天机器人背后的 1.5 Flash 模型,主打的就是轻量化和速度提升。当然模型回复的质量也有提升,上下文窗口也从原先(基于 1.0 Pro)的 8k 提升到了 32k。此外新版聊天机器人还增加了“事实核查”功能,可以一键检测生成的内容是否属实,减轻模型幻觉带来的不良影响。有网
开启无缝 AI 语音聊天,OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式
感谢OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)今天回复网友提问,表示将于下周面向 ChatGPT Plus 用户,开放 Alpha 版本 GPT-4o 的语音模式(Voice Mode),实现无缝聊天。AI在线今年 5 月报道,OpenAI 首席技术官穆里・穆拉蒂(Muri Murati)在演讲中表示:在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个结合所有这些模式的模型,因此我们在探索该模型的
大模型智障检测 + 1:Strawberry 有几个 r 纷纷数不清,最新最强 Llama3.1 也傻了
继分不清 9.11 和 9.9 哪个大以后,大模型又“集体失智”了!数不对单词“Strawberry”中有几个“r”,再次引起一片讨论。GPT-4o 不仅错了还很自信。刚出炉的 Llama-3.1 405B,倒是能在验证中发现问题并改正。比较离谱的是 Claude 3.5 Sonnet,还越改越错了。说起来这并不是最新发现的问题,只是最近新模型接连发布,非常热闹。一个个号称自己数学涨多少分,大家就再次拿出这个问题来试验,结果很是失望。在众多相关讨论的帖子中,还翻出一条马斯克对此现象的评论:好吧,也许 AGI 比我想
这个AI小玩物,让马斯克、川建国秒变「缺心眼子」粘土人
机器之能报道编辑:杨文五官乱飞的大佬们,原来这么有喜感。简单且有趣的 AI 小应用极容易出圈,比如说曾经风靡一时的妙鸭相机、粘土滤镜。最近,有人做了一个 iPhone app,只需要一张自拍照,就能生成一段挤眉弄眼的卡通视频。例如,眼皮乱耷拉的搞怪版梁龙:视频链接::实时自定义表情的美女:这个小玩意儿就是 ——Cooraft。目前,Cooraft 这款应用只支持苹果系统,苹果手机和 ipad 用户可在苹果商城下载。今天我们就来体验一下。-1-马斯克、川建国的眉毛要上天Cooraft 提供三种功能,分别是脸部动画、风