解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

2023-11-08 02:41

用过 OpenAI 视觉 API 的开发者都被惊艳到了。文章开始，我们先来看一段球赛解说视频：是不是感觉听起来不太对劲？你的感觉没错，因为这段解说是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI。这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视频。他表示，在制作过程中，他主要用到了 GPT-4V 和 TTS 两项技术。GPT-4V 是 OpenAI 前段时间发布的一个多模态大模型，既能像原版的 ChatGPT 一样通过文字聊天，也能读懂用户在聊天中给到的图

用过 OpenAI 视觉 API 的开发者都被惊艳到了。

文章开始，我们先来看一段球赛解说视频：解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

是不是感觉听起来不太对劲？

你的感觉没错，因为这段解说是用 AI 生成的，这个大喊「梅西！梅西！」的声音居然来自 AI。

这是 X 平台（原推特）博主 @Gonzalo Espinoza Graham 发布的一段视频。他表示，在制作过程中，他主要用到了 GPT-4V 和 TTS 两项技术。

GPT-4V 是 OpenAI 前段时间发布的一个多模态大模型，既能像原版的 ChatGPT 一样通过文字聊天，也能读懂用户在聊天中给到的图像。更令人兴奋的是，在昨天的开发者大会上，OpenAI 宣布，他们已经开放了视觉能力相关的 API——gpt-4-vision-preview。通过这个 API，开发者可以用 OpenAI 最新的 GPT-4 Turbo（视觉版）来开发新应用。

对于这个期待已久的 API，开发者们都跃跃欲试。因此，API 刚开放一天，就有不少开发者晒出了试用结果，这个球赛解说就是其中之一。

博主表示，为了制作这个解说视频，他将原视频的帧分批传给 gpt-4-vision-preview，然后通过一些简单的提示（prompt）要求模型生成一段旁白，最后把得到的结果用 TTS（文本转语音技术）转成音频，就可以得到视频中展示的效果。如果稍加编辑，理论上还能得到更好的结果。按照 OpenAI 目前的定价，制作这个视频大约要花 30 美元，作者直呼「不便宜」。

相关代码：https://github.com/ggoonnzzaallo/llm_experiments/blob/main/narrator.ipynb

除了球赛，还有开发者晒出了自己用 OpenAI 视觉 API 解说《英雄联盟》的 demo，这个 demo 用到的是 LNG 与 T1 的一场比赛视频，引起了全网 50 多万网友的围观。

解说效果是这样的：解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

不过，这类视频具体要怎么做呢？好在，除了这些成品效果，部分开发者还晒出了自己总结的教程，以及每个步骤中涉及的具体工具。

从 X 平台用户 @小互晒出的内容来开，整个实现过程可以分为 7 步：

提取视频帧；

构建描述提示；

发送 GPT 请求；

制作语音解说提示；

生成语音解说脚本；

将脚本转换为音频；

将音频与视频结合。

具体内容请参见以下教程：

不过，有人在评论区提出疑问：解说的这些比赛都是以前的，实时的比赛能解说吗？

能否解说实时的比赛我们现在还看不出来，不过，确实有开发者晒出了用 OpenAI 视觉 API 实时解读摄像头内容的 demo：

项目链接：https://github.com/bdekraker/WebcamGPT-Vision

做了类似实验的开发者评价说，OpenAI 视觉 API 的识别速度很快、准确性也很高。甚至有人直接把它当实时绘图工具来用，把手里的草图实时转换为此前调用专业绘图工具才能绘制的图表：

不过，这个实时效果的实验会受到 OpenAI 设置的速率限制。

可以说，OpenAI 正通过 GPT-4V 以及刚刚开放的视觉 API 让全世界看到多模态的力量，以上效果只是冰山一角。

其实，无论是在现实生活中，还是在研究领域，一个能读懂图像、视频的 AI 都有广泛的用途。

在生活中，它能用于构建更加智能的机器人，让机器人实时分析眼前的情景，随机应变，这也是当前大火的具身智能所研究的问题。

国内创业公司开发的具身智能机器人（参见《独家 | 达摩院后的下一站：陈俊波推出具身智能大模型，要给所有机器人做一颗脑袋》）

此外，它还能用于改善视障群体的生活质量，帮助他们解读视频画面和生活场景。其实，在字节跳动去年举办的一个帮助视障群体的公益比赛中，我们就能看到不少类似的创意，只是当时多模态技术还不够成熟（参见《穿颜色成对的袜子，追最新的剧：这群 coder 正帮视障者移走身上的大山》）。

在微软最近的一篇论文中，研究者也展示了他们在这方面取得的进展，比如用 GPT-4V 解读《憨豆先生》剧情。解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

这种优秀的视频解读能力能够帮助研究人员更好地理解视频，从而把广泛存在的视频转化为新的训练数据，训练出更聪明的 AI，形成一个闭环。

看来，一个更智能的世界正在加速到来。

参考链接：

https://twitter.com/geepytee/status/1721705524176257296

https://twitter.com/xiaohuggg/status/1721819447516942716

https://twitter.com/sandst1/status/1722008957881876982

微软Azure全力支撑OpenAI新模型 GPT-5或于5月下旬震撼登场

据国外媒体报道，知情人士透露微软工程师团队正加速部署服务器资源，为OpenAI即将推出的GPT-4.5和GPT-5模型做技术储备。尽管OpenAI CEO山姆·阿尔特曼（Sam Altman）近期确认GPT-4.5将在几周内亮相，但微软内部预计最快下周即可完成新模型的托管部署，这一动作暗示着生成式AI领域的技术竞赛已进入冲刺阶段。代号为Orion的GPT-4.5被视作当前技术路线的“收官之作”。

2/21/2025 11:12:00 AM

AI在线

研究显示，AI 用户可与双人团队媲美，提升工作效率

最近的一项研究显示，使用人工智能（AI）的个人在工作表现上可与传统的双人团队相媲美。此次研究由776名洁(Procter & Gamble)专家参与，他们在一天的工作坊中为多个业务单位开发产品创意。研究将参与者分成两组，分别是由一名商业专家和一名技术专家组成的团队，和单独的个人，其中一半的团队和个人都获得了 GPT-4和 GPT-4o 的访问权限。

3/24/2025 9:33:00 AM

AI在线

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板

近来风头正盛的GPT-4.5，不仅在日常问答中展现出惊人的上下文连贯性，在设计、咨询等需要高度创造力的任务中也大放异彩。当GPT-4.5在创意写作、教育咨询、设计提案等任务中展现出惊人的连贯性与创造力时，一个关键问题浮出水面：多模态大模型（MLLMs）的“创造力天花板”究竟在哪里？写一篇基于图片的短篇小说、分析一张复杂的教学课件、甚至设计一份用户界面……这些对于人类驾轻就熟的任务，对于现有的部分多模态大模型却往往是“高难动作”。

4/7/2025 2:33:00 AM

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

解说梅西球赛、英雄联盟，OpenAI GPT-4视觉API被开发者玩出新花样

相关资讯

微软Azure全力支撑OpenAI新模型 GPT-5或于5月下旬震撼登场

研究显示，AI 用户可与双人团队媲美，提升工作效率

GPT-4.5创造力比GPT-4o弱！浙大上海AI Lab发布新基准，寻找多模态创造力天花板