文章列表

分类

标签

对标 GPT-4，消息称 Meta 最快下周发布两款 Llama 3 模型

感谢科技媒体 theinformation 近日发布博文，表示 Meta 公司将于下周预告两款 Llama 3 AI 模型，为今年夏季推出“完整形态” Llama 3 铺垫。Meta 公司本周二在伦敦举办的一场活动中，确认会在下个月之前发布 Llama 3 相关模型。IT之家翻译 Meta 公司全球事务总裁尼克・克莱格（Nick Clegg）采访内容如下：我希望下个月或者更短时间内，能够推出下一代 Llama 3。我们计划今年推出一系列具有不同功能、不同通用性的模型。Meta 首席产品官 Chris Cox 补充说

4/10/2024 10:20:29 AM

故渊

ChatGPT 首次公开出现在电视剧音乐创作人员名单中

印度泰卢固语喜剧《Save the Tigers》第二季大结局出现了片尾彩蛋，这并不是指剧情方面，而是在演职员表中的音乐团队中明确标注 ChatGPT。这表明团队在制作该剧的 Club 音乐过程中，调用了 ChatGPT 参与制作，只是目前尚不清楚具体的贡献程度。电视剧团队在制作音乐过程中调用 ChatGPT 可能并非首次，但这应该是 AI 聊天机器人首次公开用于音乐创作。IT之家查询相关报道，观众对这个彩蛋的反应不一，一些观众认为这很有趣，并说这可能是人类音乐制作人的别名；另一些观众则称赞该电视剧在人工智能署名方

4/10/2024 8:56:22 AM

故渊

融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而 GPT-4 Turbo with Vision 则将两者合二为一，极大简化了开发流程，并带来了广泛的应

4/10/2024 6:55:27 AM

远洋

谷歌推出 Gemini 1.5 Pro 公共预览版，现已支持处理音频

谷歌之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。谷歌现已推出 Gemini 1.5 Pro 公共预览版，并借此为其赋予了“耳朵”，从而帮助用户处理音频内容，例如可以直接上传一份音频文件让它来分析，或者上传一份财报电话会议录音或视频来让它总结。据称，这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。谷歌称，Gemini 1.5 Pro 可以理解复杂的指令，并且无需对

4/9/2024 8:35:21 PM

问舟

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

「Real men program in C.」众所周知，大语言模型还在快速发展，应该有很多可以优化的地方。我用纯 C 语言来写，是不是能优化一大截？也许很多人开过这样的脑洞，现在有大佬实现了。今天凌晨，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。GitHub 链接：，立即引发了机器学习社区的热烈讨论，项目的 Star 量不到七个小时就冲上了 2000。有网友表示，

4/9/2024 2:56:00 PM

机器之心

第二波！2024年4月精选实用设计工具合集

大家好，这是 2024 年 4 月的第 2 波干货合集！这一期干货合集当中，包含了 3 款 AI 工具，分别是生成网页的配色和字体排版样式的 AI 工具，专门生成产品包装设计的 AI 工具，生成 UI 界面的 AI 工具，显而易见都是好东西。另外还推荐了 3 个各有偏向的资源和设计推荐网站，它们都搜集整理了大量有用的 AI 工具和设计资源以及优秀设计。当然，在此之前记得看看往期干货中有没有你感兴趣的素材：下面我们具体看看这一期的干货： 1、基于 AI 的配色方案生成工具 UI/UX 设计师和前端的在线工具，它

4/9/2024 8:40:12 AM

陈子木

实战案例！如何用 ComfyUI 给模特换服装？

一、前言当你从优设这么多高含金量的内容里面找到这我这篇，我相信你肯定不是单纯的为了工作，很好！技术的迭代其核心驱动一定是兴趣，而不仅仅是为了去打工！在工作之余，给你身边的小姐姐，小哥哥们提供适当的情绪价值，回报一定会超乎你的想象。当然，今天分享的，纯粹是技术实现路径，审美这块，我相信你肯定比我强。（在多年的甲方教育下，审美已经不存在了）闲话就说到这里，开整！二、模特换服装和场景 1. 不一样的摄影需求为什么要做这个事？在学习开始之前，整明白这个事，可以很好的帮你做好心理建设，拉高你的预期，这样在遇到

4/9/2024 12:40:02 AM

团队破壳丹塔

AI在用| Midjourney+一个提示咒语，广告摄影师可以躺平了

机器之能报道编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。无论是打开餐厅菜单、翻开一本杂志，还是点咖啡时瞟一眼上新，我们都会看到很多质感精致，极富视觉冲击力的广告图片。人工拍摄的专业广告图片为了让食物、化妆品、日用品等产品呈现出精致、极富吸引力的视觉效果，这类专业图片（带有

4/8/2024 3:03:00 PM

机器之能

超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

北大团队联合兔展发起的 Sora 复现计划，现在有了新成果。OpenAI 在今年年初扔出一项重大研究，Sora 将视频生成带入一个新的高度，很多人表示，现在的 OpenAI 一出手就是王炸。然而，众多周知的是，OpenAI 一向并不 Open，关于 Sora 的更多细节我们无从得知。谁能率先发布类 Sora 研究成了一个热门话题。今年 3 月初，北大团队联合兔展启动了 Sora 复现计划 ——Open Sora Plan，该项目希望通过开源社区的力量复现 Sora。项目上线一个月，星标量已经达到 6.6k。项目地址

4/8/2024 2:50:00 PM

机器之心

效率翻倍！5 款不容错过的免费 AI 神器（三）

大家好，这里是你们一起探索 AI 的花生~ 今天我们继续 AI 效率神器推荐第三期，内容包括 AI 实时绘画、AI 风格化头像、AI 高清放大工具等。上期回顾：一、SunoMV 网址直达：这段时间 AI 神器 Suno 爆火，想必很多小伙伴都体验过它强大的歌曲生成能力了。SunoMV 则是一个专门针对 Suno 推出的 MV 免费生成平台，用户只需提供自己的 Suno 歌曲链接，就能在几分钟内生成一个歌词同步，并且具有精美视觉效果的歌曲短片，非常方便我们在社交平台上展示推广自己的作品。 SunoMV 支持横屏

4/8/2024 8:48:48 AM

夏花生

超详细！写给设计师的LoRa模型训练SOP

写在前面：在推进 AIGC 技术在我们业务中的应用过程中，我发现许多同事，特别是设计师和跨部门协作的团队，对 LoRA 模型在图像生成中的真正价值理解还不够深入。我们似乎更多地停留在"别人在做,我也要做"的从众心态，而没有真正认识到 LoRA 模型的战略意义和变革潜力。这种认知差距可能会导致我们在实践中走一些弯路，无法充分发挥 LoRA 模型的优势，也难以实现 AIGC 技术在业务中的最大化赋能。因此，我针对 LoRA 模型训练流程进行了系统梳理和优化，希望能给大家一些启发，帮助我们更好地理解和应用这一强大的工

4/8/2024 6:51:01 AM

NIC

你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

新智元报道编辑：Aeneas 好困【新智元导读】2026 年的数据荒越来越近，硅谷大厂们已经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！图像托管网站 Photobucket 的陈年旧数据，本来已经多年无人问津，但

4/7/2024 1:36:43 PM

远洋

“看起来不像手机”，Altman和Jony Ive的AI硬件公司拟融资10亿美元

机器之能报道编辑：SiaJony Ive 和 Sam Altman 的 AI 设备初创公司正在与 Emerson Collective 和 Thrive Capital 进行融资谈判。Ive 希望筹集高达 10 亿美元的资金。据 The Information 独家消息，由前苹果设计师 Jony Ive 和 OpenAI CEO Sam Altman 创立的神秘 AI 硬件公司目前已经开始与一些最知名的风险投资公司进行融资谈判。The Information执行主编表示，它看起来不像手机据一位参与该过程的人士和另一

4/7/2024 11:28:00 AM

机器之能

报告称 OpenAI 采集了超一百万小时的 YouTube 视频来训练 GPT-4

本周早些时候，《华尔街日报》报道称 AI 公司在收集高质量训练数据方面遇到了困难。今天，《纽约时报》详细介绍了 AI 公司处理此问题的一些方法，其中涉及到属于 AI 版权法模糊灰色区域的内容。报道称，OpenAI 迫切需要训练数据，并开发了 Whisper 音频转录模型来克服困难，转录了超过 100 万小时的 YouTube 视频来训练其最先进的大型语言模型 GPT-4。报道提到，OpenAI 在 2021 年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录 YouTube 视频、播客和有声读物的可行性。此外，O

4/7/2024 7:02:17 AM

汪淼

DomoAI 6大新功能详解！可自动扣除背景，支持人物一键跳舞

大家好，这里是和你们一起探索 AI 的花生~ 之前为大家介绍了一款 AI 视频工具 DomoAI，它能一键将真人视频转为多种不同的风格，比如动漫、3D 卡通、像素、中式水墨等。过去一段时间内，DomoAI 又连续推出了很多新功能，不仅风格更多样、转绘质量进一步提升，还新增了和 Viggle 一样的角色动态功能，今天我们就一起来看一下这些新功能的用法~ 相关推荐：一、DomoAI 新网站官方网站： DomoAI 用法详解：视频一键转风格！详解 AI 视频神器 DomoAI 用法 DomoAI 虽然目前依旧将视频生

4/7/2024 1:16:20 AM

夏花生

如何用AIGC加速设计？来看京东3C数码年货节设计复盘（上）

3CDesign 设计团队服务于京东零售 3C 数码范围内的设计项目。重点关注京东 6.18、京东 11.11、京东电器营销品类相关全案项目设计、通讯、电脑数码、配件业务、京东电竞等。团队会针对用户体验、营销、交互、品牌、研究、前端代码设计等层面服务 3C 数码事业群。从创意到商业化价值的转化，再从数据理性分析并驱动，最终形成商业设计赋能于业务帮助业务增长。同时团队是个关注设计商业化、设计价值领域的所有项目的创新设计。一、项目背景 1. 背景介绍 2024 京东 3C 数码年货节项目，旨在通过富有创意的场景化布局为

4/7/2024 12:00:20 AM

团队京东JellyDesign

攻陷短视频后，Sora将需要72万块H100 GPU

在被大规模采用后，Sora 的推理成本将很快超过训练成本。OpenAI 推出的 Sora 模型能够在各种场景下生成极其逼真的视频，吸引了全世界的目光。近日，投资机构 factorial funds 发表了一篇博文，深入探讨了 Sora 背后的一些技术细节，并对这些视频模型可能产生影响进行了探讨。最后，文中还讨论了对用于训练 Sora 等模型的算力的看法，并对训练计算与推理计算的算力比较进行了预测，这对估计未来 GPU 需求具有重要意义。机器之心对此文进行了整理。本报告的主要调查结果总结如下：Sora 是一个建立在扩

4/6/2024 11:51:00 PM

机器之心

ChatGPT现在能帮你P图了，只需简单说几个字

现在，不论是网页、iOS 还是安卓版的 ChatGPT，都可以用上 DALL-E 3 强大的编辑图像功能了。OpenAI 的 DALL-E 今天进行了多项升级，在通往 Midjourney 加 Photoshop 的道路上又前进了一大步。现在，你可以在 ChatGPT 中使用 DALL-E 组件进行复杂的图像编辑。DALL-E 现在提供预设风格建议，以帮助激发图像创作灵感 —— 与很多新一代安卓旗舰手机 AI 生成壁纸的提示类似。在 AI 画图领域，Stable Diffusion，Midjourney 与 DAL

4/6/2024 11:38:00 PM

机器之心

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 AI视频用哪个？6个知名的AI视频工具使用测评报告韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布GPT-4.1指令提示工程指南

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 人形机器人百度苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练