图像

图像领域再次与LLM一拍即合!idea撞车OpenAI强化微调,西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调(Reinforcement Finetuning,ReFT),能够让模型利用CoT进行多步推理之后,通过强化学习让最终输出符合人类偏好。 无独有偶,齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程:模型从高斯噪声开始的多步去噪过程也类似一个思维链,逐步「思考」怎样生成一张高质量图像,是一种图像生成领域的「图像链CoT」。 与OpenAI不谋而和的是,机器学习与感知(MAPLE)实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程,论文指出利用与人类奖励对齐的强化学习监督训练,能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度,用更少的步数生成高质量图像内容。

写给小白的大模型入门科普

什么是大模型? 大模型,英文名叫Large Model,大型模型。 早期的时候,也叫Foundation Model,基础模型。

Midjourney 下周上线新图像编辑器:让“二创”AI 图片变得更简单

首席执行官 David Holz 昨日在 Discord 平台宣布,将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作,这些操作不再需要 Discord,只需简单命令即可完成;用户可以使用数字画笔进行修补,进行更精细的修改。此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片,保留原始构图和内容不变的情况下,彻底改变纹理、颜色和细节。

文生图 AI Midjourney 雄心:7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域

科技媒体 The Decoder 昨日(9 月 12 日)发布博文,报道称在最近的“Office Hours”活动中,Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展,并回答了社区的提问。Midjourney 7.0 版本Holz 更新了 Midjourney 7.0 版本时间表,表示将会在未来 1-2 月内发布。让更多人体验 MidjourneyHolz 表示公司并不急于推出新的 AI 模型,而是提高现有技术的易用性,让工具深入融入到专业人士的日常工作中

谷歌将重新开放 Gemini 生成人物图像功能,此前因“种族描述不当”引争议

感谢北京时间 29(今)日,据彭博社报道,谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能,部分消费者将可以重新使用。谷歌表示,将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具,该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦(Dave Citron)表示,该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展”。“我们一直在努力对产品进行技术改进,并改进了评估集、红队练习和明确的产品原则。当然,Gemini 创建的每张图像都不

Midjourney 官宣网页版免费用,前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队,甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布,抢夺了 Midjourney 的荣光,不仅一举拉高了图像生成质量,还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney,终于听劝了,上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率,而且使整体交互逻辑更加清晰,对于高频使用 Midjourney 的用户来说,绝对欣喜!今天,Midjourney 宣布,将升级后的新工具向所有人免

视觉语言模型导论:这篇论文能成为你进军VLM的第一步

近些年,语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型(LLM)有能力解决多种不同的任务,它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入,但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通,那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域,但视觉与语言之间的连接尚未被彻底打通。举些例子,大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作,结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致!手部细节、光照全都有,甚至后背上的 Logo 也完全正确。有网友表示:恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃:Holy Cow!从完全破碎的文本到风格一致、拼写正确的写作,只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来,简直就被玩儿疯了,尤其是图像生成这块。比如有网友发现,GPT-4o 在组合任意图像上面就像是打通了任督

准确率 98%,OpenAI 推出专用 AI 工具:能识别 DALL・E 3 生成的图片

感谢OpenAI 公司今天发布新闻稿,宣布推出专用的 AI 检测工具,能够识别某张图片是否由 DALL・E 3 模型生成,且准确率高达 98%。OpenAI 公司在博文中表示,之所以推出这项新工具,主要是为了帮助研究人员研究内容真实性,此外该公司还宣布加入 C2PA(内容来源和真实性联盟)的指导委员会。C2PA 是一种广泛使用的数字内容认证标准,由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用,C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候,在 ChatGPT 和 OpenAI

融合 ChatGPT+DALL・E 3,贾佳亚团队新作开源畅玩:识图推理生图一站解决

在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强?香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini:更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯,最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前,Mini-Gemini 从代码、模型到数据已全部开源,登上了 PaperWithCode 热榜。Mini-Gemini

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3,加入图像局部修改功能

感谢今日凌晨,OpenAI 发文宣布:用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外,用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分,并提供描述所需更改的文本提示。然后,DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频: 前述 DALL-E 3 的编辑功能已经在本月初发布,但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器,进一步

Midjourney 能让角色保持一致了!网友实测称直呼“改变游戏规则”

Midjourney 发布新功能,网友直呼“不可思议”!现在你可以让生成的图像几乎保持角色一致,belike:所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用:保持同一风格,感觉配上文字可以讲一个故事了:面部、着装、发型可调控,换装玩法 get:新功能名为角色参照(Character Reference),和之前的风格参照类似,不过这次不是保持风格一致,而是保持生成图像的角色与给定的参照角色一致。网友们已经玩嗨了,纷纷表示这是迄今为止 Midjourney 最大的更新:还有网友认为生成式 AI

推出不到一个月,谷歌Gemini翻车了

机器之能报道编辑:Sia谷歌下架 Gemini 人物图像生成服务。三月前,谷歌 Gemini 轰轰烈烈亮相,被描述为谷歌“最大、最有能力和最通用”的 AI 系统,并补充说它具有复杂的推理和编码能力。2 月 8 日,谷歌聊天机器人 Bard 正式更名为 Gemini,以反映新聊天机器人的“使命”——提供对“最有能力的模型系列”的访问。结果,推出不到一个月,Gemini 就捅了个大篓子。用户使用人像生成服务时发现,让 Gemini 承认白人的存好像非常困难,AI 拒绝在图像中描绘白人,以至于生成不少违背基本事实(性别、

178页!GPT-4V(ision)医疗领域首个全面案例测评:离临床应用与实际决策尚有距离

上海交大&上海AI Lab发布178页GPT-4V医疗案例测评,首次全面揭秘GPT-4V医疗领域视觉性能。

解锁Midjourney隐藏技能:改改Prompt,四宫格就「裂变」了

我们离真正的「AI 电影」不远了?

像相机一样变焦、填充画面细节,还能自定义风格,AI作画神器Midjourney又更新了

这次,Midjourney 5.2 又给用户带来了新的惊喜!

平息画师怒火:Stable Diffusion学会在绘画中直接「擦除」侵权概念

Stable Diffusion 学会了「偷天换日」的本领。

AI模型被「骗」怎么破?《燃烧吧!天才程序员》冠军团队解决方案出炉

前段时间,一档名为《燃烧吧!天才程序员》的竞赛类综艺让「程序员」这一群体成功破圈,也呈现了 AI 在解决实际问题的过程中面临的一些挑战,如数据集中存在对抗样本、图像中存在噪声等。在本文中,CLS 战队(大赛头名团队)的优秀选手、奥比中光算法工程师埼玉详细解读了他们在比赛中用到的解决方案。近日,由蚂蚁集团、清华大学等组织共同协办的首届「Inclusion|A-tech 科技精英赛」(以下简称 A-tech 大赛)圆满落幕。奥比中光科技集团股份有限公司 (以下简称「奥比中光」) 研究院 SDK 组负责人小蛮腰、算法工程
  • 1