文章列表

从 Sora 的发展史,聊聊设计师如何面对 AI 焦虑

经过春节小休整,很多朋友都鼓起信心重新出发,因为吉祥话听多了还是会受用,没想到返岗途中还没来得及跟大家道句开工大吉,资讯话题就被Sora的发布信息填满。 关于这款神器的详细介绍:Sora的发布让人感叹科幻电影都不敢这样拍,而且很多权威平台都认为奥特曼的大招还没亮出来,几句话做60秒视频只是前戏,先吊吊大家胃口,为他后面融资铺垫。此图最近已经符号化了 Sora这个名字据说来自日文中的“空”(そら sora),象征“无限创造力”,众所周知,空也是佛家用语,以我的无知只能找来《道德经》的“无”来应战,无中生有,有生于无,

Sora 面世,视频生成的 GPT-3 时刻来了

2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。 看过视频效果后,网友纷纷感叹「现实,不存在了。 」不夸张地说,Sora 的技术结果直接碾压了过去世界范围内所有文生视频的探索结果,颠覆了 AI 短视频生成的现状。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

大家好,我是花生~ 最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图像生成效率和质量上比半年前推出的 SDXL 1.0 有了明显提升,今天就为大家介绍一下 2 款新模型的特点和用法。 :一、Stable Diffusion 3 简介 官方介绍: 加入等候名单: 2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion

7000字干货!Sora 提示词秘籍和竞品效果对比

2024 年 2 月 16 日凌晨,OpenAI 正式发布了文本到视频生成模型 Sora,直接生成 60s 视频,多角色多镜头切换的视频,还上了央视新闻。 目前 Sora 并未开放,只向少数导演艺术家开放邀请码。 至此,好莱坞的时代结束了,人人可以做视频电影的时代到来啦! 今天我们就 Sora 生成视频来拆解提示词秘籍公式,竞品视频生成效果对比,解析 Sora 优势劣势和 Sora 模型原理。一、AIGC 视频模型效果对比 首先让我们看看,目前主流的 AI 视频工具 Runway、Pika、Stable Video

幼儿园学历都能看懂! Sora 技术原理科普

本文来源于公众号赛博禅心 ,作者金色传说大聪明 写在前面本文的阅读门槛很高,需要至少幼儿园毕业 本文讲述 Sora 的 Spacetime Patches 技术,此处意义为时空碎片 图片主要来自《哆啦 A 梦:二次元口袋照相机》 OpenAI 好棒,哆啦 A 梦好棒,我好棒!大雄慵懒地躺在房间的地毯上,眼神迷离地看着天花板上的光斑。他翻来覆去地玩着手中的老旧玩具小兵,回想着上个暑假和小伙伴们的那场刺激的野营冒险。大雄:“哆啦 A 梦,那次野营真的很好玩,但我现在只能记得一点点。要是能有办法随时重温那种感觉就好了。”

谷歌Gemini生图功能紧急关闭,口碑一夜塌房,Yann LeCun:我早就知道

Gemini 好像终于被玩坏了。去年年底,谷歌 Gemini 震撼了业界,它是谷歌「最大、最有能力和最通用」的 AI 系统,号称第一个原生多模态大模型,能力超越 GPT-4,也被认为是谷歌反击微软和 OpenAI 的强大工具。对此,在 2 月 8 日,谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini,以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果,推出不到一个月,这个 Gemini 就翻车了。多离谱呢,作为一个多模态的生

国内高校打造类Sora模型VDT,通用视频扩散Transformer被ICLR 2024接收

2 月 16 日,OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构,和市面上大部分主流方法(由 2D Stable Diffusion 扩展)并不相同。为什么 Sora 坚持使用 Diffusion Transformer,其中的原因从同时期发表在 ICLR 2024(VDT: General-purpose Video Diffusion Transformers via Mask Modeling)的论文可以窥见一二。这项工作由

推出不到一个月,谷歌Gemini翻车了

机器之能报道编辑:Sia谷歌下架 Gemini 人物图像生成服务。三月前,谷歌 Gemini 轰轰烈烈亮相,被描述为谷歌“最大、最有能力和最通用”的 AI 系统,并补充说它具有复杂的推理和编码能力。2 月 8 日,谷歌聊天机器人 Bard 正式更名为 Gemini,以反映新聊天机器人的“使命”——提供对“最有能力的模型系列”的访问。结果,推出不到一个月,Gemini 就捅了个大篓子。用户使用人像生成服务时发现,让 Gemini 承认白人的存好像非常困难,AI 拒绝在图像中描绘白人,以至于生成不少违背基本事实(性别、

OpenAI工程师必备经典《苦涩的教训》,原来20多年前就有了原型

大量数据学习涌现出来的能力,终于超越了人们的想象。OpenAI 推出视频生成模型 Sora 已经一周的时间了,热度不减,作者团队还在持续放出让人眼前一亮的视频。比如「一群爱冒险的小狗探索天空废墟的电影预告片」,Sora 一次生成并自己完成剪辑。当然,一个个生动、逼真的 AI 视频让人们好奇为什么是 OpenAI 率先打造出了 Sora 并能够跑通所有 AGI 技术栈呢?这一问题在社交媒体上引发了热烈的讨论。其中,在一篇知乎文章中,加州大学伯克利分校计算机科学博士、作者 @SIY.Z 分析了 OpenAI 成功的一些

Sora全球爆火,对设计师来说是机会还是挑战?

想必最近大家在网上都看到了有关 Sora 的信息,这是 OpenAI 在春节期间发布的一项令人难以置信的新技术,在人工智能领域,这可以说是颠覆性的突破和创新。简单来说,它是一个视频生成器,你给它一段文字,它就能帮你创造出你想要的视频作品!我们先来看一个 Sora 生成的视频。 这个视频的咒语(Prompt):一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子,手拿黑色手袋,在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜,涂着红色口红。街道潮湿而有反光效果,色彩缤纷的灯光仿佛在地面

AI 视频新王者诞生!一文盘点 Sora 模型 14 项功能特点!

大家好,我是花生~ 2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了之前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,大家应该对它都有所了解。今天就根据网上已公布的视频,对 Sora 的功能特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比,让大家对 Sora 的能力有一个更直观全面的了解。 相关推荐:一、60s 超长视频 之前优设已经推荐过 AI 视频工具,比如 Runw

超多实战案例!大厂出品的AIGC设计实践手册

一、前言 随着技术的不断迭代,AIGC 能力的可控性得到了进一步提升,可应用的场景也越来越多,在文本、图像、视频等多个领域都有了广泛应用。用户已经可以用自然语言来与 AI 工具进行交互,革新传统办公方式,工作任务可以更具创造性,并且提高了生产效率。 本文将从 AIGC 体系化应用角度聊一聊,设计团队如何利用 AIGC 来优化工作流,提升效率的同时,更多推动 AIGC 能力应用与落地。二、AIGC 对设计的影响 如何更好的利用 AI 工具帮助我们提升设计效率与价值,我们尝试了从产品设计类需求、运营设计类需求、视频/动

Sora为何出自OpenAI?一线员工作息时间线揭秘:我们疯狂地卷

数数每天几个小时?为什么是 OpenAI 率先打造出了 Sora?现在全世界不论研究员、工程师还是投资人都在问这个问题。最近几天,人们对于视频大模型 Sora 的讨论热度持续升高,信息早已破了圈,相关的投资热点都已经出现了两轮。                               Sora 生成的「Flower tiger」视频。试问这种生成能力会催生多少新脑洞?在一篇文章中,加州大学伯克利分校计算机科学博士、知乎作者 @SIY.Z 分析了 OpenAI 成功的一些原因,包括:目标和商业模式明确:目标就是

出圈的Sora带火DiT,连登GitHub热榜,已进化出新版本SiT

好的研究不会被埋没,只会历久弥新。虽然已经发布近一周时间,OpenAI 视频生成大模型 Sora 的影响仍在继续!其中,Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT(扩散 Transformer)论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。论文地址: 地址:,DiT 论文和 GitHub 项目的热度水涨船高,重新收获大量关注。论文出现在

6000字干货!全面了解顶尖AI产品 ChatGPT-4

GPT-4 的看点都有哪些呢?逻辑推理,强到可以代替你考律师啦 角色扮演,cosplay 认定角色不轻易被忽悠 多模态,可以看到图片啦 更安全,想要再轻易忽悠它越狱很难了GPT-4 的论文: 搭载了 GPT-4 的 ChatGPT Plus: 申请 GPT-4 的 API: 接下来的内容会详细介绍 GPT-4 的一切。GPT-4 具有更广泛的通识知识和问题解决能力,可以更有效的解决难题 1. 它更有创造力 GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务,例如

如何用AIGC 做好UI设计?实战案例来了!

热爱,是做好一件关键的事情。 “AI 到底会不会取代我们”?这个问题我们留在结尾与大家探讨,现在我就开始学习如何用 AIGC 去做界面、以及怎样指导我们进行优化。 利用“AI”做界面主要会用到四个工具:Chat GPT、Figma(Wireframe Designer 插件)、即时设计(即时 AI)、文心一言(作为无法使用 Chat GPT 同学的备用方案)一、UI 设计的基本原则与 AIGC 的融合 UI 设计更多是创建直观、易用、吸引人的用户界面,而 AIGC 则是指通过人工智能技术生成的文本、图像、音频或视频

几小时前,OpenAI 爆款工具 Sora 被取消了静音模式

机器之能报道编辑:Sia简单文字提示,即可为这些“默片”增添声音效果。当你被 OpenAI Sora 生成的这些视频震撼时,有没有潜意识里总觉得还缺点啥?视频链接:“短视频”是不是差不多?这是 1895 年路易斯·卢米埃尔导演的《火车进站》,固定机位,一镜到底拍摄火车开进站台的场景。视频链接:《工厂大门》的效果是这样的:视频链接:,即使是默片也并非一点声音也没有。放映时,影院里会有乐团(大到一个乐团、小到一位钢琴师)根据剧情演奏音乐,用音乐渲染情绪,推动情节发展。现在,AI 语音克隆初创公司 ElevenLabs

降维式打击!像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。 终于 Openai 也加入了 AI 视频的战争,在此之前 Runway 和一众 AI 视频公司已经奋战了一年多,SD 最近也发布了他们产品化的 AI 视频工具,midjourney 也是即将要发布文生视频功能。 但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的,全球的 AI 视频公司都要睡不着了。 官网: Sora 并没有公开对大家开放测试入口,只发布了一个官方给大家展示效果。 其中的关键信息是:最长生成 60s 视频,视频镜头一致