文章列表

分类

标签

谷歌Gemini生图功能紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

Gemini 好像终于被玩坏了。去年年底，谷歌 Gemini 震撼了业界，它是谷歌「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是谷歌反击微软和 OpenAI 的强大工具。对此，在 2 月 8 日，谷歌还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini，以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周谷歌还火速更新了 Gemini Pro 1.5 版。结果，推出不到一个月，这个 Gemini 就翻车了。多离谱呢，作为一个多模态的生

2/25/2024 7:49:00 PM

机器之心

国内高校打造类Sora模型VDT，通用视频扩散Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成领域的一次重大突破。Sora 基于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。为什么 Sora 坚持使用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由

2/25/2024 7:36:00 PM

机器之心

推出不到一个月，谷歌Gemini翻车了

机器之能报道编辑：Sia谷歌下架 Gemini 人物图像生成服务。三月前，谷歌 Gemini 轰轰烈烈亮相，被描述为谷歌“最大、最有能力和最通用”的 AI 系统，并补充说它具有复杂的推理和编码能力。2 月 8 日，谷歌聊天机器人 Bard 正式更名为 Gemini，以反映新聊天机器人的“使命”——提供对“最有能力的模型系列”的访问。结果，推出不到一个月，Gemini 就捅了个大篓子。用户使用人像生成服务时发现，让 Gemini 承认白人的存好像非常困难，AI 拒绝在图像中描绘白人，以至于生成不少违背基本事实（性别、

2/23/2024 6:20:00 PM

机器之能

OpenAI工程师必备经典《苦涩的教训》，原来20多年前就有了原型

大量数据学习涌现出来的能力，终于超越了人们的想象。OpenAI 推出视频生成模型 Sora 已经一周的时间了，热度不减，作者团队还在持续放出让人眼前一亮的视频。比如「一群爱冒险的小狗探索天空废墟的电影预告片」，Sora 一次生成并自己完成剪辑。当然，一个个生动、逼真的 AI 视频让人们好奇为什么是 OpenAI 率先打造出了 Sora 并能够跑通所有 AGI 技术栈呢？这一问题在社交媒体上引发了热烈的讨论。其中，在一篇知乎文章中，加州大学伯克利分校计算机科学博士、作者 @SIY.Z 分析了 OpenAI 成功的一些

2/23/2024 11:06:00 AM

机器之心

Sora全球爆火，对设计师来说是机会还是挑战？

想必最近大家在网上都看到了有关 Sora 的信息，这是 OpenAI 在春节期间发布的一项令人难以置信的新技术，在人工智能领域，这可以说是颠覆性的突破和创新。简单来说，它是一个视频生成器，你给它一段文字，它就能帮你创造出你想要的视频作品！我们先来看一个 Sora 生成的视频。这个视频的咒语（Prompt）：一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面

2/23/2024 6:56:02 AM

团队58UXD

AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！

大家好，我是花生~ 2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。相关推荐：一、60s 超长视频之前优设已经推荐过 AI 视频工具，比如 Runw

2/22/2024 8:51:19 AM

夏花生

超多实战案例！大厂出品的AIGC设计实践手册

一、前言随着技术的不断迭代，AIGC 能力的可控性得到了进一步提升，可应用的场景也越来越多，在文本、图像、视频等多个领域都有了广泛应用。用户已经可以用自然语言来与 AI 工具进行交互，革新传统办公方式，工作任务可以更具创造性，并且提高了生产效率。本文将从 AIGC 体系化应用角度聊一聊，设计团队如何利用 AIGC 来优化工作流，提升效率的同时，更多推动 AIGC 能力应用与落地。二、AIGC 对设计的影响如何更好的利用 AI 工具帮助我们提升设计效率与价值，我们尝试了从产品设计类需求、运营设计类需求、视频/动

2/22/2024 6:48:10 AM

团队WOWDesign

Sora为何出自OpenAI？一线员工作息时间线揭秘：我们疯狂地卷

数数每天几个小时？为什么是 OpenAI 率先打造出了 Sora？现在全世界不论研究员、工程师还是投资人都在问这个问题。最近几天，人们对于视频大模型 Sora 的讨论热度持续升高，信息早已破了圈，相关的投资热点都已经出现了两轮。 Sora 生成的「Flower tiger」视频。试问这种生成能力会催生多少新脑洞？在一篇文章中，加州大学伯克利分校计算机科学博士、知乎作者 @SIY.Z 分析了 OpenAI 成功的一些原因，包括：目标和商业模式明确：目标就是

2/21/2024 3:00:00 PM

机器之心

出圈的Sora带火DiT，连登GitHub热榜，已进化出新版本SiT

好的研究不会被埋没，只会历久弥新。虽然已经发布近一周时间，OpenAI 视频生成大模型 Sora 的影响仍在继续！其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文《Scalable Diffusion Models with Transformers》被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。论文地址：地址：，DiT 论文和 GitHub 项目的热度水涨船高，重新收获大量关注。论文出现在

2/21/2024 2:54:00 PM

机器之心

6000字干货！全面了解顶尖AI产品 ChatGPT-4

GPT-4 的看点都有哪些呢？逻辑推理，强到可以代替你考律师啦角色扮演，cosplay 认定角色不轻易被忽悠多模态，可以看到图片啦更安全，想要再轻易忽悠它越狱很难了GPT-4 的论文：搭载了 GPT-4 的 ChatGPT Plus：申请 GPT-4 的 API：接下来的内容会详细介绍 GPT-4 的一切。GPT-4 具有更广泛的通识知识和问题解决能力，可以更有效的解决难题 1. 它更有创造力 GPT-4 比以往任何时候都更具创造性和协作性。它可以与用户一起生成、编辑和迭代创意和技术写作任务，例如

2/21/2024 8:34:37 AM

逗砂

如何用AIGC 做好UI设计？实战案例来了！

热爱，是做好一件关键的事情。 “AI 到底会不会取代我们”？这个问题我们留在结尾与大家探讨，现在我就开始学习如何用 AIGC 去做界面、以及怎样指导我们进行优化。利用“AI”做界面主要会用到四个工具：Chat GPT、Figma（Wireframe Designer 插件）、即时设计（即时 AI）、文心一言（作为无法使用 Chat GPT 同学的备用方案）一、UI 设计的基本原则与 AIGC 的融合 UI 设计更多是创建直观、易用、吸引人的用户界面，而 AIGC 则是指通过人工智能技术生成的文本、图像、音频或视频

2/21/2024 12:22:36 AM

文轩没有大脑袋

几小时前，OpenAI 爆款工具 Sora 被取消了静音模式

机器之能报道编辑：Sia简单文字提示，即可为这些“默片”增添声音效果。当你被 OpenAI Sora 生成的这些视频震撼时，有没有潜意识里总觉得还缺点啥？视频链接：“短视频”是不是差不多？这是 1895 年路易斯·卢米埃尔导演的《火车进站》，固定机位，一镜到底拍摄火车开进站台的场景。视频链接：《工厂大门》的效果是这样的：视频链接：，即使是默片也并非一点声音也没有。放映时，影院里会有乐团（大到一个乐团、小到一位钢琴师）根据剧情演奏音乐，用音乐渲染情绪，推动情节发展。现在，AI 语音克隆初创公司 ElevenLabs

2/20/2024 4:05:00 PM

机器之能

降维式打击！像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也发布了他们产品化的 AI 视频工具，midjourney 也是即将要发布文生视频功能。但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。官网： Sora 并没有公开对大家开放测试入口，只发布了一个官方给大家展示效果。其中的关键信息是：最长生成 60s 视频，视频镜头一致

2/20/2024 1:30:06 AM

逗砂

Prompt 灵感！8 组高质量元宵节 Midjourney 提示词！

大家好我是花生~ 再过几天就是正月十五元宵节了，整理了 7 组元宵节主题的 Midjourney 提示词, 希望对大家做设计有帮助~ 相关推荐：一、3D 人物素材 A cute chinese girl, Wearing traditional Chinese clothes. She is holding a bowl of white smooth tangyuan happily. 3D Pixar style, Blender, Pure Chinese red background --ar 2:3 --

2/20/2024 1:20:09 AM

夏花生

揭秘Sora技术路线：核心成员来自伯克利，基础论文曾被CVPR拒稿

至此已成艺术的 Sora，是从哪条技术路线发展出来的？最近几天，据说全世界的风投机构开会都在大谈 Sora。自去年初 ChatGPT 引发全科技领域军备竞赛之后，已经没有人愿意在新的 AI 生成视频赛道上落后了。在这个问题上，人们早有预判，但也始料未及：AI 生成视频，是继文本生成、图像生成以后技术持续发展的方向，此前也有不少科技公司抢跑推出自己的视频生成技术。不过当 OpenAI 出手发布 Sora 之后，我们却立即有了「发现新世界」的感觉 —— 效果和之前的技术相比高出了几个档次。

2/19/2024 3:21:00 PM

机器之心

Sora到底懂不懂物理世界？一场头脑风暴正在AI圈大佬间展开

Sora 到底是不是物理引擎甚至世界模型？图灵奖得主 Yann LeCun、Keras 之父 Francois Chollet 等人正在深入探讨。最近几天，OpenAI 发布的视频生成模型 Sora 成了全世界关注的焦点。和以往只能生成几秒钟视频的模型不同，Sora 把生成视频的长度一下子拉长到 60 秒。而且，它不仅能了解用户在 Prompt 中提出的要求，还能 get 到人、物在物理世界中的存在方式。以经典的「海盗船在咖啡杯中缠斗」为例。为了让生成效果看起来逼真，Sora 需要克服以下几个物理难点：规模和比

2/19/2024 3:15:00 PM

机器之心

Sam Altman７万亿美元芯片计划被怼，“硅仙人”：我只用不到1万亿

机器之能报道编辑：Sia不是每个业内人士都买这笔疯狂数字的账。Sam Altman 最近登上了头条新闻，背后的原因有些夸张。这位从未设计过一个芯片的聪明人认为半导体行业需要他，正在推动一个旨在提高全球芯片制造能力的项目。为此，他需要筹集 5 万亿至 7 万亿美元，并正与包括阿联酋政府在内的不同投资者进行谈判。OpenAI 发言人表示，“ OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论，这对于人工智能和相关行业至关重要。鉴于国家优先事项的重要性，我们将继续向美国政府通报情况，并期待

2/19/2024 12:59:00 PM

机器之能

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域，恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天，OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区，其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已，直呼「好莱坞的时代结束了」。仅仅一年时间，文本生成视频的效果迎来了质的飞跃。图源：，随着 Sora 加入这场视频生成领域的战争，受到冲击最大的是同类竞品模型，比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后，很多人认为，S

2/19/2024 12:11:00 PM

机器之心

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 AI视频用哪个？6个知名的AI视频工具使用测评报告韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练