生成 - AIGC宇宙

实时高保真人脸编辑方法PersonaMagic，可根据肖像无缝生成新角色、风格或场景图像。

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍的是一个高保真实时人脸编辑方法PersonaMagic，通过分阶段的文本条件调节和动态嵌入学习来优化人脸定制。该技术利用时序动态的交叉注意力机制，能够在不同阶段有效捕捉人脸特征，从而在生成个性化图像时最大程度地保留身份信息。

跨年舞台歌手翻车惨烈，AI唱作俱佳，意外圈粉

AI好好用报道编辑：Sia刚刚过去的跨年舞台，依旧延续了群魔乱舞的台风。假唱早已见怪不怪。假唱。

类Sora模型到底懂不懂物理？字节完成系统性实验，图灵奖得主杨立昆赞转!

Sora爆火以来，“视频生成模型到底懂不懂物理规律”受到热议，但业界一直未有研究证实。近日，字节跳动豆包大模型团队公布最新论文，研究历时8个月，围绕“视频生成模型距离世界模型有多远”首次在业界完成系统性实验并给出明确结论：视频生成模型可以记忆训练案例，但暂时还无法真正理解物理规律，做到“举一反三”。图灵奖得主、Meta首席AI科学家杨立昆点赞并转发了该研究，表示“结论不令人意外，但很高兴终于有人做了这个尝试！

神秘“蓝莓”登顶文生图模型竞技场，被指 Flux.1 续作

都来玩这套。继 OpenAI“草莓”之后，又有神秘模型蓝莓来“霸榜”。在文生图模型排行榜上，两个“无人认领”的模型 blueberry_0 和 blueberry_1 力压 Flux.1、Ideogram v2、Midjourney v6.1 等知名模型，成为最新榜一榜二大哥。一些生成效果 be like，确实不错。不过这一次，未必是 OpenAI 跨界来搞事，背后公司更可能是打造了 Flux 的黑森林实验室。为啥？来看这组 PK。blueberry_0 生成的大胡子男人，和 Flux Pro 的几乎一模一样。有人

谷歌将重新开放 Gemini 生成人物图像功能，此前因“种族描述不当”引争议

感谢北京时间 29（今）日，据彭博社报道，谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能，部分消费者将可以重新使用。谷歌表示，将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具，该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦（Dave Citron）表示，该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展”。“我们一直在努力对产品进行技术改进，并改进了评估集、红队练习和明确的产品原则。当然，Gemini 创建的每张图像都不

文生图 AI 工具 Midjourney 开放网页版，新用户附赠 25 张免费试用额度

感谢Midjourney 官方账号在 X 平台发布推文，宣布向所有用户开放网页界面，并重新推出免费试用图像生成功能。Midjourney 此前因其文生图 AI 工具被滥用而暂停免费使用，现在重新向用户开放。科技媒体 The Decoder 认为 Midjourney 此举可能是针对最新上线的 Ideogram 2.0 工具。AI在线附上官方宣传视频如下：用户无需使用 Discord 即可注册网页版并在网页版中生成图片，Midjourney 还准备了一些常见的提示词帮助以及图片示例，用户可以根据浏览其他用户生成的图

OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放，但每天只能生成两张图片

北京时间今天凌晨，OpenAI 宣布 ChatGPT 免费用户可以每天使用其 DALL-E 3 模型生成图片。AI在线注：DALL-E 3 于去年 9 月推出，起初只面向 ChatGPT Plus 付费订阅用户提供。用户可以直接在 ChatGPT 的输入框中键入生成图片相关指令，但经过实测，这项功能每天只能免费生成两张图片，否则 ChatGPT 会提示“您已达到图片创建上限，升级至 ChatGPT Plus 或于明天 XX:XX 后重试”。▲ AI在线实测生成的图片，下同今年 4 月，OpenAI 宣布 DALL-

英伟达最新技术分享：手把手教你用 Llama 3.1 合成数据改进模型！附代码

适逢 Llama 3.1 模型刚刚发布，英伟达就发表了一篇技术博客，手把手教你如何好好利用这个强大的开源模型，为领域模型或 RAG 系统的微调生成合成数据。Epoch AI 上个月刚刚发文预言「数据墙」迫近，结果英伟达转头就甩出了 340B 开源巨兽 Nemotron。真实数据稀缺可能不再是问题了，Nemotron 9T token 的预训练预料中，98% 都是合成数据。也许你还对合成数据存在顾虑，或者不知道如何应用 LLM 驱动数据生成。或许，英伟达的这篇博客可以提供答案。原文地址：，用 LLM 合成数据的本质究

为什么AI数不清Strawberry里有几个 r？Karpathy：我用表情包给你解释一下

让模型知道自己擅长什么、不擅长什么是一个很重要的问题。还记得这些天大模型被揪出来的低级错误吗？不知道 9.11 和 9.9 哪个大，数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点，大模型都只能接受人们的无情嘲笑。嘲笑之后，大家也冷静了下来，开始思考：低级错误背后的本质是什么？大家普遍认为，是 Token 化（Tokenization）的锅。在国内，Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性，因为 Tokenization 里的 token 指的未必是词，也可以

AI 训 AI 遭投毒 9 次后大崩溃，牛津剑桥等发现登 Nature 封面

感谢AI在线网友刺客的线索投递！用 AI 生成的数据训练 AI，模型会崩溃？牛津、剑桥、帝国理工、多伦多大学等机构的这篇论文，今天登上了 Nature 封面。如今，LLM 已经强势入侵了人类的互联网，极大地改变了在线文本和图像的生态系统。如果网络上的大部分文本都是 AI 生成的，我们用网络数据训练出的 GPT-n，会发生什么？论文地址：，如果在训练中不加区别地使用 AI 产生的内容，模型就会出现不可逆转的缺陷 —— 原始内容分布的尾部（低概率事件）会消失！这种效应，被称为「模型崩溃」。换句话说，合成数据就像是近

ChatGPT 无法取代人类程序员： IEEE 35 页论文测出困难编码正确率仅为 0.66%

【新智元导读】6 月，IEEE 刊登了一篇对 ChatGPT 代码生成任务进行系统评估的论文，数据集就是程序员们最爱的 LeetCode 题库。研究揭示了 LLM 在代码任务中出现的潜在问题和能力局限，让我们能够对模型做出进一步改进，并逐渐了解使用 ChatGPT 写代码的最佳姿势。有了 ChatGPT，还需要人类程序猿编码吗？上个月，一项发表在 IEEE TSE 期刊（Transactions on Software Engineering）上的研究评估了 ChatGPT 所生成的代码在功能性、复杂性和安全性方面

从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型，是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中，作者将展示如何将从头开始构建一个小规模的文本生成视频模型，涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU，所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示，在 CPU 上运行显然需要更长

预测准确率达95.7%，ChatMOF利用LLM预测和生成金属有机框架

编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设计与性能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练，在预测各种属性方面表现出色。近日，KAIST 团队提出了一种 AI 系统——ChatMOF，用于预

绕过直接数值模拟或实验，生成扩散模型用于湍流研究

编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题，对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力，但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日，意大利罗马第二大学（University of Rome Tor Vergata）的研究人员，提出了一种基于最先进的扩散模型的机器学习方法，可以在高雷诺数的三维湍流中生成单粒子轨迹，从而绕过直接数值模拟或实验来获得可

GPT-4o 再秀神操作，“复现”OpenAI 总裁讲课，网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作，结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致！手部细节、光照全都有，甚至后背上的 Logo 也完全正确。有网友表示：恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃：Holy Cow！从完全破碎的文本到风格一致、拼写正确的写作，只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来，简直就被玩儿疯了，尤其是图像生成这块。比如有网友发现，GPT-4o 在组合任意图像上面就像是打通了任督

融合 ChatGPT+DALL・E 3，贾佳亚团队新作开源畅玩：识图推理生图一站解决

在开源社区中把 GPT-4 Dall・E 3 能⼒整合起来的模型该有多强？香港中文大学终身教授贾佳亚团队提出多模态模型 Mini-Gemini：更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力，还能结合图像推理和生成，堪称王炸。Mini-Gemini 还提供了 2B 小杯到 34B 的超大杯，最强模型在多个指标上相比谷歌的 Gemini Pro 甚至 GPT-4V 都不遑多让。目前，Mini-Gemini 从代码、模型到数据已全部开源，登上了 PaperWithCode 热榜。Mini-Gemini

AI在用| Midjourney+一个提示咒语，广告摄影师可以躺平了

机器之能报道编辑：Cardinal以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。无论是打开餐厅菜单、翻开一本杂志，还是点咖啡时瞟一眼上新，我们都会看到很多质感精致，极富视觉冲击力的广告图片。人工拍摄的专业广告图片为了让食物、化妆品、日用品等产品呈现出精致、极富吸引力的视觉效果，这类专业图片（带有

ChatGPT 网页 / 移动端整合文生图工具 DALL-E 3，加入图像局部修改功能

感谢今日凌晨，OpenAI 发文宣布：用户现在可以在 ChatGPT 中跨 Web、iOS 和 Android 使用 DALL-E 生成图像。除此之外，用户还可以通过添加、删除或调整图像中的元素来完善自己的 DALL-E 作品。用户可以通过选择工具选择图像的特定部分，并提供描述所需更改的文本提示。然后，DALL-E 将使用这些信息生成反映编辑内容的新版本图像。IT之家附官方演示视频：前述 DALL-E 3 的编辑功能已经在本月初发布，但当时未被整合到 ChatGPT 中。OpenAI 表示通过引入该编辑器，进一步