视频

跨年舞台歌手翻车惨烈,AI唱作俱佳,意外圈粉

AI好好用报道编辑:Sia刚刚过去的跨年舞台,依旧延续了群魔乱舞的台风。 假唱早已见怪不怪。 假唱。

ChatGPT「睁眼」了!OpenAI版「Her」满血上线,还有圣诞限定彩蛋

OpenAI直播第六天,可以说是把圣诞氛围拉满了。 在高级语音模式中,不仅加入了视频聊天,而且还有限定版圣诞老人语音。 这就意味着,通过设备共享摄像头摄取到的内容,我们就可以和「Her」实时视频对话了!

谷歌领跑 AI 视频生成赛道:抢先 OpenAI Sora 推出 Veo 模型,可生成 1080P 高清视频

谷歌公司昨日(12 月 4 日)发布博文,宣布在 Vertex AI 平台上,以私测预览版的形式,面向企业开放最新的生成式 AI 视频模型 Veo,助力企业内容创作流程。

视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好 | NeurIPS

把连续相同的图像块合并成一个token,就能让Transformer的视频处理速度大幅提升。 卡内基梅隆大学提出了视频大模型加速方法Run-Length Tokenization(RLT),被NeurIPS 2024选为Spotlight论文。 在精度几乎没有损失的前提下,RLT可以让模型训练和推理速度双双提升。

类Sora模型到底懂不懂物理?字节完成系统性实验,图灵奖得主杨立昆赞转!

Sora爆火以来,“视频生成模型到底懂不懂物理规律”受到热议,但业界一直未有研究证实。 近日,字节跳动豆包大模型团队公布最新论文,研究历时8个月,围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论:视频生成模型可以记忆训练案例,但暂时还无法真正理解物理规律,做到“举一反三”。 图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研究,表示“结论不令人意外,但很高兴终于有人做了这个尝试!

英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。一位

被索赔 500 万美元,OpenAI 遭 YouTube 主播集体诉讼:擅用其内容训练 AI

感谢一位 YouTube 主播上周五向美国加利福尼亚州北区地方法院递交集体诉讼文件,指控 OpenAI 公司在未告知通知视频所有者或向其提供补偿的情况下,擅自抓取数百万个 YouTube 视频脚本,用于训练 AI 生成模型。该主播名为大卫・米莱特(David Millette),来自美国马萨诸塞州,指控 OpenAI 公司抓取其和其他主播创作者的视频,用于训练 AI 模型,涉及的产品包括 ChatGPT、Sora 等等。集体诉讼文件认为 OpenAI 收集这些数据,并得到了“丰厚的回报”,但这种做法违反了版权法和

现已下架,谷歌 Gemini 奥运广告遭吐槽:剥夺儿童学习机会,助涨过度依赖 AI 不良风气

谷歌在奥运期间为宣传自家 Gemini AI 服务,推出了名为《Dear Sydney》的宣传视频,不过发布后遭到广泛差评,目前已经下架。视频剧情视频的主角是一位年轻的女运动员,她的偶像是美国田径明星 Sydney McLaughlin-Levrone,旁白部分是她的父亲。她想要给 Sydney 写信,然后她的父亲借助 Gemini 来撰写了一封信件,该父亲在旁白中表示“她想向 Sydney 表达崇敬之情,情绪要饱满,但必须恰到好处”。 于是该父亲向 Gemini 发出提示词:“帮我女儿写一封信,告诉 Sydney

从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU,所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示,在 CPU 上运行显然需要更长

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。具体实现步骤包括如下:首先构建 GPT-2 网络。然后对其进行优化,以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和

谷歌 CEO 皮查伊:若 OpenAI 用 YouTube 训练 AI ,公司将采取法律行动

感谢CNBC 消息,谷歌公司 CEO 桑达尔・皮查伊表示:如果确定微软支持的 OpenAI 依赖 YouTube 内容来训练能够生成视频的人工智能模型,谷歌将“解决这个问题”(采取法律行动)。IT之家此前报道,OpenAI 首席技术官在接受采访时语焉不详,无法明确说明 Sora 的训练数据来源。当记者追问具体来源是否包含 YouTube 视频时,她竟然表示“我实际上并不确定(I'm actually not sure about that)”。皮查伊在被问及 OpenAI 是否可能违反谷歌的条款和条件时,皮查伊答道

我们上手实测GPT-4o:速度快到飞起,还能直出板书,但视频分析逊色

机器之能原创作者:山茶花 Cardina作为 OpenAI 有史以来最好的模型, GPT-4o 究竟强在哪里?你要知道,它是一个原生的多模态大模型,可以跨文本、音频和视频进行实时推理——能听、能说、能看、零延时、可打断,还会「看人脸色」。更重要的是,它还免费!赶紧薅一把,你会知道什么是真・科幻照进现实!实测 GPT-4o:速度飞快,视觉能力惊艳打开 ChatGPT 官网,就会收到 GPT-4o 的试用邀请,点击「立即试用」即可进入对话页面。如果没有收到邀请,可能是灰度测试阶段,稍等一会再重新进入。然后,直接在下方的

谷歌 2 小时复仇硬刚 GPT-4o:Gemini 颠覆搜索,视频 AI 对抗 Sora

【新智元导读】被 OpenAI 提前截胡的谷歌,昨天不甘示弱地开启反击!大杀器 Project Astra 效果不输 GPT-4o,文生视频模型 Veo 硬刚 Sora,用 AI 彻底颠覆谷歌搜索,Gemini 1.5 Pro 达到 200 万 token 上下文…… 谷歌轰出一连串武器,对 OpenAI 贴脸开大。谷歌 I / O 2024 如期来了,眼花缭乱地发布了一堆更新。跟 OpenAI 半小时的「小而美」发布会相比,谷歌显然准备得更加充分,当然,时间也相当之长……▲ 2 个多小时的发布会也是挑战着观众们的

AI 聊天机器人大战升温:谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起,谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕,这家科技巨头发布了一段视频,展示了疑似经过升级的 Gemini 聊天机器人。视频中,Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的,视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问,并准确地提供信息。当被问到正在进行的布置工作时,Gemini 正确识别出这是为一个重要活动做的准备。 整个对话过程自然

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候,《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天,《纽约时报》详细介绍了 AI 公司处理此问题的一些方法,其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称,OpenAI 迫切需要训练数据,并开发了 Whisper 音频转录模型来克服困难,转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到,OpenAI 在 2021 年耗尽了有用的数据供应,并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外,O

消息称 OpenAI 将与好莱坞电影公司会面并推荐 Sora

感谢据彭博社报道,OpenAI 计划下周在洛杉矶与好莱坞电影公司、媒体高管和人才经纪公司举行会议。知情人士透露,本次会议计划建立娱乐行业的合作伙伴关系,并鼓励电影制作人将其新的人工智能视频生成器整合到他们的工作流中。OpenAI 希望向好莱坞推介其 AI 视频生成工具 Sora,公司 CEO Altman 已经在奥斯卡电影节周末出席洛杉矶的多场派对。据IT之家此前报道,OpenAI Sora 模型可以严格根据用户输入的提示词,制作长达一分钟的视频,保持较高的视觉质量。该模型可以深度模拟真实物理世界,标志着人工智能在

开发者再分享 OpenAI Sora 生成的短视频:树叶大象、彩虹瀑布等

OpenAI 今年 2 月推出 Sora 模型之后,迅速成为 AI 圈内头条,能够基于用户的一句话,生成最长 1 分钟的视频,效果接近实拍。OpenAI 目前并未向公众发布 Sora,不过开发者 @LinusEkenstam 近日发布系列推文,展示了由 Sora 生成的 9 段新视频,包括被树叶覆盖的大象、蜜蜂视角飞跃花丛,以及彩虹颜色的瀑布等等。提示词:“An elephant made of leaves running in the jungle”(树叶做的大象在丛林中奔跑) 提示词:“An adorable

全球首个类 Sora 开源复现方案来了!全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型,来了!整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后,该团队再次发布最