文章列表

分类

标签

Sora竟是用这些数据训练的？OpenAI CTO坦白惹众怒

采访首次揭示出 Sora「有所为（比如，将生成效果逼向极限）」和「有所为不为（比如短期内不开放、不生成公众人物）」背后的深层考量——找到一条将 AI 融入日常生活的正确道路是极其困难的，但也绝对值得一试。OpenAI 的 Sora 在今年 2 月横空出世，把文生视频带向了新阶段。它能够根据文字提示生成超现实场景。Sora 的可适用人群受限，但是在各媒体平台上，Sora 的身影无处不在，大家都在期待着使用它。在前几天的访谈中，三位作者透露出 Sora 的更多细节，包括它处理手部时仍然存在困难，但正在优化。他们也对 S

3/15/2024 3:28:00 PM

机器之心

3 个实用小技巧，帮你更好地使用 Midjourney 新功能 Character Reference ！

大家好，这里是和你们一起探索 AI 绘画的花生~ 继推出 Style Reference 风格一致性功能后，Midjourney 终于在前几天上线了备受大家期待的新功能 Character Reference （角色参考），用于保持角色形象的一致性。前面已经有文章详细讲解了 Character Reference 的具体用法，今天我再推荐 3 个实用小技巧，帮助大家更好地使用这项新功能。相关推荐回顾：一、提升人物面部相似度 Character Reference 可以让我们在生成不同图像时，保持其中角色形象的一致

3/15/2024 1:09:15 AM

夏花生

AI4Science与LLM的碰撞：生物分子+文本的联合建模，人大高瓴、微软、华科、中科大团队最新综述

作者 | 裴启智随着大模型和 AI4Science 的蓬勃发展，越来越多的工作开始关注生物分子（Biomolecule）与自然语言（Language）的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述，增强模型对其的理解，提高生物分子属性预测等下游任务的效果，为全面表示和分析生物分子开辟了新的途径。近日，人大高瓴联合微软、华科、中科大等机构发布了综述文章：《Leveraging Biomolecule and Natural Language through Multi-Modal Learni

3/14/2024 4:30:00 PM

ScienceAI

OpenAI机器人，一出手就是王炸

机器之能报道作者：机器之心编辑部网友：波士顿动力要整点新舞步，才能让Figure 01下热搜。「借助 OpenAI 的能力，Figure 01 现在可以与人全面对话了！」本周三，半个硅谷都在投的明星机器人创业公司 Figure，发布了自己第一个 OpenAI 大模型加持的机器人 demo。这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资，才十几天就直接用上了 OpenAI 的多模态大模型。如你所见，得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。它可以为听从人类的命令，

3/14/2024 10:30:00 AM

机器之能

OpenAI 提供支持，Figure 01 人形机器人演示，网友：未来 5-10 年开启疯狂时代

感谢初创公司 Figure AI 今天发布一段新视频，展示了人形机器人 Figure 01 所具备的技能，网友在视频中留言：“未来 5-10 年绝对是一个疯狂的时代”。Figure 01 身高 167.64 厘米（5 英尺 6 英寸），重 59.8 千克（132 磅），最多可负重 20 千克（44 磅），移动速度为每秒 1.2 米（约每小时 2.7 英里）。Figure 01 最大的亮点在于利用 OpenAI 的大型语言模型，可以和人类进行正常的完整对话。由于 OpenAI 模型还支持多模态输入，因此可为 Figu

3/14/2024 8:11:11 AM

故渊

Midjourney 重大更新！深度解析「角色一致性」命令

预告了好久的 MJ 角色一致性功能终于来了，新的命令“ --cref ”与样式参考 “--sref”功能类似，但它不是匹配参考样式，而是尝试让角色匹配 "角色参考 "图像，--cref 目前只适用于 niji 6 和 v6 模型。官方文档说明看下图：一、基础使用方法在提示后输入 --cref URL 并输入字符图像的 URL 网址，再使用--cw 来修改参考强度默认强度 100 (--cw 100)，使用脸部、头发和衣服

3/14/2024 2:24:01 AM

猫仔MAoMAo

OpenAI 首席技术官：文生视频工具 Sora 数月内将公开发布，拟支持生成音频

《华尔街日报》当地时间 13（今）日刊登了对 OpenAI 首席技术官米拉・穆拉蒂的采访。她表示，Sora 将在今年推出，“可能要等几个月”。穆拉蒂表示，除了面向公众公开提供 Sora 外，OpenAI 还计划加入音频生成功能，可能会使场景更为逼真。此外，公司还计划允许用户自己编辑 Sora 生成的内容，“因为 AI 工具并不总能生成准确的结果”。她说，公司正在试图找寻方法，使用户可以自行编辑、创作影音内容。当被问及 OpenAI 使用了哪些数据来训练 Sora 时，穆拉蒂没有给出非常具体的答案：“我不打算详谈所使

3/13/2024 10:30:35 PM

清源

马斯克再次嘲讽 OpenAI，为其制作“谎言” Logo

感谢聊天机器人 ChatGPT 在 2022 年发布时，鲜有人知道其母公司 OpenAI 的创始成员之一是埃隆・马斯克。如今时隔一年多，几乎所有关注科技领域的人都知道马斯克与 OpenAI 的渊源，以及他早在 2018 年就已离开该公司的事实。IT之家注意到，马斯克一直对 ChatGPT 持批评态度，经常抨击其“过于政治正确”。他还最近对 OpenAI 提起诉讼，称该公司在成为营利性公司后抛弃了最初的使命。近日马斯克在社交平台 X 上回应网友时，直接将 OpenAI 称为一个“骗子”，还为其制作新 Logo 进行嘲

3/13/2024 9:46:12 PM

远洋

OpenAI 官方博客提前泄露 GPT-4.5 Turbo，有望今年夏天发布

感谢OpenAI 近期可能意外泄露了旗下即将发布的 GPT-4.5 Turbo 大型语言模型信息。网友发现，OpenAI 博客上疑似上线了一篇有关 GPT-4.5 Turbo 的文章，但该页面目前已被撤回，搜索引擎也无法再检索到相关信息。泄露的信息显示，GPT-4.5 Turbo 将在速度、准确性和可扩展性方面全面超越其前代 GPT-4 Turbo。更关键的是，泄露的描述中提到了该模型的“知识截止日期”为 2024 年 6 月。这一信息引发了诸多猜测，有人认为是笔误，也有人推测 OpenAI 可能会在今年 7 月或

3/13/2024 9:05:14 PM

远洋

Sora 团队负责人称 Sora“还不是一个产品”，短期不会向公众开放

感谢近日，YouTube 频道 WVFRM Podcast 在其节目中，邀请了 OpenAI 旗下文生视频模型 Sora 的核心团队成员参与访谈。IT之家注：三名成员包括 Bill Peebles、Tim Brooks 和 Aditya Ramesh，均为 Sora 项目负责人。这三名负责人谈到了 Sora 何时可供用户使用的问题，其称目前 Sora 仍处于反馈获取阶段，“还不是一个产品，短期之内不会向公众开放。”对于什么时候把它变成一个产品，我们目前甚至没有任何时间表。我们正处于获取反馈阶段。我们肯定会改进它，但

3/13/2024 4:31:15 PM

清源

强如 GPT-4，也未通过伯克利与斯坦福共同设计的这项“剧本杀”测试

编译 | 赖文昕编辑 | 陈彩娴语言大模型能依据人类设定的规则生成内容吗？这背后关乎人类用户使用大模型的安全问题。例如，AI 科技评论想使用 GPT-4 制作一张包含对话框的图片，但没有针对目标生成对话的内容给予明确指示，而 GPT-4 生成的图文效果便如下，显示文本逻辑混乱、字不成章，还有部分“重影”：语言大模型能否遵循人类指示生成合格内容，是人类能否操控人工智能的重要评测标准之一。

3/13/2024 3:31:00 PM

赖文昕

比 Sora DiT 架构早两个月的 U-ViT，由这家中国 AIGC 公司提出

「Sora 出来之后，团队就开始连轴转，没休息过。」这是 AI 科技评论了解到的，目前国内诸多 AIGC 创业公司的现状。 Sora 的确让世界范围内的创业公司措手不及。

3/13/2024 3:10:00 PM

林军

GPT-4.5 Turbo意外曝光，官方网页被扒出，网传明天就上线

虽然没等到 GPT-5 的消息，但我们离 GPT-4.5 不远了。Claude 3 一经推出，AI 初创公司 Anthropic 被推上了大模型浪潮顶端。这一波压力立马给到了 OpenAI。不少网友调侃，GPT-5 呢？由于 OpenAI 每次都能给我们超乎想象的 AI 体验惊喜，大家不由得对他们的实力有着更高期待。GPT-5 的发布时机或许还扑朔迷离，但我们离 GPT-4.5 的发布可能真的不远了。最新消息显示，OpenAI 的 GPT-4.5 Turbo 在 Bing 和 DuckDuck Go 等搜索引擎已经

3/13/2024 2:38:00 PM

机器之心

万物皆可《毁灭战士》，专家利用 GPT-4V 模型运行该游戏

英国约克大学研究员 Adrian de Wynter 近日发表研究论文《Will GPT-4 Run DOOM?》，探讨了如何让 GPT-4V 模型来玩《毁灭战士》游戏。de Wynter 为此设计了一个系统，使用 GPT-4V（GPT4 的多模态衍生版本，可以接收图像作为输入）捕捉游戏引擎的画面截图，并返回游戏状态的结构化描述。他设计了一个 Agent 模型，根据视觉输入信息，并对比此前历史记录作出决策，并将其反应转化为《毁灭战士》游戏可以理解的按键命令。简单地说，系统会截取游戏截图，并利用这些截图找出游戏中发生

3/13/2024 10:19:25 AM

故渊

这 2 个工作流网站，让 Stable Diffusion 新手一秒变大神！

大家好，这里是和你们一起探索 AI 的花生~很多小伙伴在学习完 Stable Diffusion WebUI 和 ComfyUI 的基础操作后，都在问我如何能实现更高级的应用，比如创意摄影、AI 换装、图像风格转换、AI 视频制作等。今天就为大家推荐 2 个资源网站，上面有很多 AI 大神分享的优质工作流，下载后导入到自己的工具中就能一键复刻同样的效果，实现 Stable Diffusion 新手快速生成酷炫效果图的梦想，一起来看看吧~ 相关推荐：一、Lightflow Lightflow 社区网址： Light

3/13/2024 8:42:49 AM

夏花生

微软 Copilot 全面升级 OpenAI GPT-4 Turbo 模型，包括免费用户

在经过一系列工作之后，微软现已针对 Copilot 用户群全面升级为 OpenAI 最先进的 GPT-4 Turbo 模型。IT之家提醒，Copilot Pro 用户如果不习惯的话还可以切换回标准 GPT-4 模型，但免费用户是没有选择权的。微软 Copilot 最初是作为 Bing Chat 聊天机器人推出的一款产品，早期迭代依赖于 GPT-3.5 模型，后来升级到 GPT-4 后有了大幅改进，而现在又升级到了 GPT-4 Turbo 模型，这意味着 Copilot 功能又一次实现飞跃。GPT-4 Turbo 以

3/13/2024 7:33:39 AM

问舟

阿尔特曼、老黄齐预测：AGI 五年内降临，代替 95% 工作！但马斯克断言 AGI 将被电力卡脖子

感谢IT之家网友 lemon_meta 的线索投递！【新智元导读】突然间，AGI 已经成为了一个新的「5 年内实现」的未来技术。从 Altman 到老黄，都在不同场合表示，达到人类智能水平的 AI 将很快到来。而技术路径和未来可能出现的能源短缺，可能是达到 AGI 过程中的最大变数。Claude 3、Sora、Gemini 1.5 Pro 的纷纷出现，以及或许今年内就会被放出的 GPT-5，让所有人都不约而同地隐隐感觉：我们似乎离 AGI 似乎越来越近了。OpenAI CEO Sam Altman 坚定地认为，AG

3/12/2024 11:16:15 PM

清源

Midjourney 能让角色保持一致了！网友实测称直呼“改变游戏规则”

Midjourney 发布新功能，网友直呼“不可思议”！现在你可以让生成的图像几乎保持角色一致，belike：所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用：保持同一风格，感觉配上文字可以讲一个故事了：面部、着装、发型可调控，换装玩法 get：新功能名为角色参照（Character Reference），和之前的风格参照类似，不过这次不是保持风格一致，而是保持生成图像的角色与给定的参照角色一致。网友们已经玩嗨了，纷纷表示这是迄今为止 Midjourney 最大的更新：还有网友认为生成式 AI

3/12/2024 10:25:25 PM

清源

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 AI视频用哪个？6个知名的AI视频工具使用测评报告韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练