应用

让AI生成更准确！解析 Midjourny 的逆向生成方法

网上关于 MIdjourny 的教程很多，但是基本都是正向思维。正向思维导致的结果就是你提供的关键词，并不一定能够输出我想要的效果。这篇文章主要从逆向思维来剖析，如何以图生图，对目标效果图进行反编译的方法，输出一套属于自己想要的效果图。更多干货：一、关于逆向生成「逆向生成」无非就是站在巨人的肩膀上，对原有的目标创作效果进行反向编译，从而学习里面隐藏的技术点，供自己所用。 MIdjourny 提供了一个很好的工具指令就是 describe。上传一张目标效果图，解析一下即可生成 4 段文本分析。记得上大学的时候

2/17/2024 12:13:57 AM

阿琦Aqi

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

欢迎来到 bling zoo！北京时间今天凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，继 Runway、Pika、谷歌和 Meta 之后，OpenAI 终于加入视频生成领域的战争。山姆・奥特曼的消息放出后，看到 OpenAI 工程师第一时间展示的 AI 生成视频效果，人们纷纷表示感叹：好莱坞的时代结束了？OpenAI 声称，如果给定一段简短或详细的描述或一张静态图片，Sora 就能生成类似电影的 1080p 场景，其中包含多个角色、不同类型的动作和背景细节。Sora 有哪些特别之处呢？它对语言有着深

2/16/2024 5:41:00 PM

机器之心

谷歌Gemini1.5火速上线：MoE架构，100万上下文

今天，谷歌宣布推出 Gemini 1.5。Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型，针对多种任务的扩展进行了优化，其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似，并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000

2/16/2024 5:39:00 PM

机器之心

我在模拟世界！OpenAI刚刚公布Sora技术细节：是数据驱动物理引擎

机器之心报道机器之心编辑部先安排好演员，再让他们来演绎。今天，我们都在感受 Sora 的带来的魅力。OpenAI 的首个视频生成模型 Sora，让「一句话生成视频」的前沿 AI 技术向上突破了一大截，引发了业界对于生成式 AI 技术方向的大讨论。Sora 生成的视频范例。提示词：「两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频。」来源：，我们已经见证过许多创业公司提出的视频生成模型。相比之下，OpenAI 提出的新模型不论是效果还是理念上，似乎都具有划时代的意义。有人第一时间总结道，Sora 不是一个简单的视

2/16/2024 5:34:00 PM

机器之能

突发！AI大牛Andrej Karpathy离开OpenAI

Andrej Karpathy 又离职了！刚刚，AI大牛Andrej Karpathy官宣了一条重要消息：他昨天已经从OpenAI离职，不过这中间没有什么戏剧性冲突，他只是想去尝试一下自己的个人项目。Karpathy在官宣离职的推文中写道，「是的，我昨天离开了OpenAI。首先，没发生什么特别的事情，这不是由于任何特定事件、问题或者争议导致的（但请继续提供阴谋论，因为它们确实很有趣 :））。实际上，在过去的大约一年时间里，在OpenAI的经历真的很棒——团队非常强大，人们非常棒，路线图也非常令人兴奋，我认为我们都有

2/15/2024 5:43:00 PM

机器之心

英伟达官宣AI聊天机器人，本地RTX显卡运行，这是要挑战OpenAI？

OpenAI 进军芯片领域，英伟达自己造聊天机器人，这是 Sam vs Jensen 的时代？下载地址： AI 淘金热里，英伟达经常被称为那个「卖铲子的人」，而且卖的是难以替代的铲子。依靠这个角色，英伟达市值已经超越亚马逊，成美股第四大公司，离谷歌市值仅一步之遥。但值得注意的是，英伟达本身也在这波 AI 浪潮里淘金。刚刚，他们发布了一个对话机器人 ——「Chat with RTX」，面向 GeForce RTX 30 系列和 40 系列显卡用户（至少有 8GB VRAM）。有人开玩笑说，Sam Altman 进军芯

2/15/2024 5:40:00 PM

机器之心

华为盘古大模型变「小」，1.5B也很能打

ChatGPT 等系列模型横空出世，以其强大的性能引起了全球的关注，有望改变人与计算机之间的交互方式，应用到千行百业。然而这些大型模型的实际需要极高的内存和计算资源，限制了它们在各种场景中的应用。例如，具有 175B 参数的 GPT-3 在使用 FP32 数据类型存储时需要大约 700GB 内存。尽管 7B 参数模型相对更高效，但其资源需求仍然难以直接部署在手机等边缘设备上。此外，尽管许多研究已经成功地打造出多个效果很好的大语言模型，但他们往往采用相似的训练策略。一方面，大量工作集中在收集和清理数据上，较少强调研究

2/15/2024 5:18:00 PM

机器之心

7万亿美元：OpenAI超大芯片计划曝光，要重塑全球半导体行业

通用人工智能要迎来大结局了？OpenAI 的 CEO 山姆・奥特曼（Sam Altman）引领了近期生成式 AI 的大发展。最近，他又有了一个宏伟目标：重塑全球半导体行业。据《华尔街日报》近日报道，奥特曼正在推动一个旨在提高全球芯片制造能力的项目，并在与包括阿联酋政府在内的不同投资者进行谈判。一位消息人士称，奥特曼可能要为这一计划筹集 5 万亿至 7 万亿美元。OpenAI 发言人表示：「OpenAI 就增加芯片、能源和数据中心的全球基础设施和供应链进行了富有成效的讨论，这对于人工智能和相关行业至关重要。鉴于国家优

2/15/2024 4:03:00 PM

机器之心

谷歌Gemini Ultra 大会员：每月19.99美元

谷歌大模型的新篇章翻开一页 —— 这还只是 Ultra 的 1.0 版。时代变了。北京时间 2 月 8 日晚，随着桑达尔・皮查伊（Sundar Pichai）的一声宣布，谷歌大模型体系全面进入了 Gemini 时代，并带来最新的 Gemini Ultra 模型。距离 Bard 推出还不到一年，谷歌的所有生成式 AI 服务这次实现了改头换面。原来的 Bard 网站已经改为 Gemini： 12 月 Gemini 系列的发布时，谷歌已经预告过能力最强的 Gemini Ultra 大模型。当时推出的 Gemini Pro

2/15/2024 3:49:00 PM

机器之心

如何用AI工具快速制作红包封面？教程来了！

红包封面制作简易教程来啦！更多教程：微信红包封面开发平台： WHEE-AI 绘画工具： RUNWAY-AI 视频工具：美图抠图-抠图工具：熊猫压缩-图片压缩工具：

2/10/2024 8:58:50 AM

宇

系统Prompt长达1700个token，ChatGPT变「懒」的原因找到了？

ChatGPT：我不是不会，就是不想干活。现阶段，ChatGPT 已经成为很多人的得力助手，写文档、编代码、生成图片…… 但看似无所不能的 ChatGPT，也有其懒惰的一面。不知大家是否还记得去年年底 GPT-4 开始变「懒」的事实，比如对于用户提出的要求，ChatGPT 的响应会变得非常缓慢且敷衍，甚至还会单方面中断对话；又比如用户要求 ChatGPT 编写一段代码，它会建议用户自己去写。当时，OpenAI 给出的解释是模型行为是不可预测的，他们也在研究如何修复。一种看似无解的问题，现在另一种解释似乎正在被广大网

2/8/2024 4:54:00 PM

机器之心

吉他摇滚、电子音乐都能搞定，Meta开源音频生成新模型MAGNeT，非自回归7倍提速

MAGNeT 有望改变我们体验音乐的方式。在文本生成音频（或音乐）这个 AIGC 赛道，Meta 最近又有了新研究成果，而且开源了。前几日，在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT，一种在掩码生成序列建模方法，可以直接在多个音频 tokens 流上直接运行。与以往工作最大的不同是，MAGNeT 是由单阶段、非自回归 transform

2/8/2024 3:59:00 PM

机器之心

5000字干货！盘点2023年Stable Diffusion GUI工具及其创作生态

正文开始之前，这里先用一句话概括性的介绍一下 Stable Diffusion：它是一种基于深度学习的文本到图像的生成模型。能够根据文本描述创造出丰富多样且具有高质量和细节的图像。它的生成模型是通过大规模图像及其描述的数据集训练而成，所以生成的图像在保持高创造性的同时，还具有较高的高分辨率。另外因其开源性质和强大的功能在 AI 绘画领域具有重要的地位。具体的原理这里就不展开讲了，我们只需要知道它是一种能够通过文本描述生成图像的 AI 绘画工具就够了。2023 年是 AI 相关技术井喷式爆发的一年，在 AI 绘画领域

2/7/2024 8:37:17 AM

五幺六

ML Blocks！全新的节点式 AI 图像处理神器

大家好，我是花生~ 之前为大家介绍过不少 AI 图像处理神器，比如 Clipdrop、Pixian、Upscayl 等，可以帮我们便捷地完成抠图、修图、高清放大等任务。最近又发现了一个新的 AI 图像处理工具 ML Blocks，非常有意思，今天推荐给大家~ 相关推荐：ML Blocks 官网直达：官方教程：与我们常用的图像处理工具不同，ML Blocks 的工作界面是一块白板，它的各种图像处理功能则被分为一个个独立的模块，当我们想实现某种图像处理效果时，可以自己将对应的模块连接到一起形成的工作流（work

2/7/2024 8:23:11 AM

夏花生

俄罗斯小哥ChatGPT找女友：聊了5239个女生，现在订婚了

有事 AI 它是真上啊。「我向一位女生求婚，ChatGPT 已经和她交流了一年。为了走到这一步，AI 已经尝试了和 5239 名女生进行过沟通……」来源：，社交网络上人们正在轮番向一位俄罗斯小哥送去祝福。23 岁的 Aleksandr Zhadan 是一名 AI 开发者，也是社交平台 TenChat 的一名产品经理。故事是这样开始的：GPT 除了搜索之外，还可以在配对后写入。这样在 50 次自动执行中，他可以获得 18 次配对。GPT 在没有 Aleksa

2/6/2024 9:08:00 PM

机器之心

浙大团队发布 75 页科学 LLM 调查，重点关注生物和化学领域，指出七个未来发展方向

编辑 | X大型语言模型 (LLM) 已成为增强自然语言理解的变革力量，代表着通用人工智能的重大进步。LLM 的应用超越了传统的语言界限，涵盖了科学领域各学科中开发的专业语言系统。这也导致了科学 LLM 的出现。作为科学人工智能（AI for Science）领域的一个新兴领域，科学 LLM 值得全面探索。然而，目前缺乏系统的、最新的调查来介绍它们。近日，来自浙江大学的研究团队，系统地描述了「科学语言」的概念，同时对科学 LLM 的最新进展进行了全面回顾。鉴于科学学科领域广阔，该分析重点关注生物和化学领域。这包括对

2/5/2024 10:22:00 AM

ScienceAI

Midjourney 又变强了！一文详解新功能 Style Reference

大家好我是花生~ 没错今天依旧是 Midjourney 的相关内容，因为它又推出了一个非常重要的新功能—— Style Reference （风格参考），可以学习一张图像的风格并生成相似新图像。新功能的用法是怎样的？与 Image Prompt 垫图又有什么区别呢？一起来看看吧~ 上期回顾：一、 Style Reference 使用介绍如果说 Style Tuner 让我们能探索出更多独特的新风格，那么 Style Reference 就让复制某种特定风格变得更加容易，作用类似于 SD 里的 controln

2/5/2024 8:46:45 AM

夏花生

重磅发布！大淘宝设计部 2023 年度AI设计实践报告出炉

22 年中，绘制头像还在用 3D 进行建模，到了年末，就已经用 AI 直接生成了。 22 年末，面对 AI 工具设想能不能在我们业务中进行尝试，到了 23 年中，AI 工具已经覆盖我们团队所承接的所有营销场景业务。 23 年初，团队同学讲到 AI 工具的应用时觉得这是一个专业亮点，到了 23 年末，AI 工具已成为我们团队设计师的基础能力。这一切，都变的太快。这一年，也积累了些心得。首先 AI 工具带来降本增效，让我们的创意效果快速产生，设计方案有效达成。其次增效不仅仅增的是效率，还有设计效果。设计自由度极

2/5/2024 7:54:22 AM

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 AI视频用哪个？6个知名的AI视频工具使用测评报告韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布GPT-4.1指令提示工程指南

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 人形机器人百度苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练