应用

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。在谷歌时，Yi T

3/7/2024 3:14:00 PM

机器之心

Pieter Abbeel 新工作“大世界模型”：轻松玩转1小时长视频，一对一QA视频内容细节

作者：赖文昕编辑：陈彩娴自3天前Sora发布以来，由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。 “世界模型”作为Sora的一大核心亮点，被OpenAI写在技术报告中。但Sora是否真的如Open AI所说，是一个世界模型，却引起了行业内的争论。

3/7/2024 3:13:00 PM

赖文昕

Midjourney封禁Stability AI：恶意爬取数据，致服务器瘫痪24小时

Stability AI CEO Emad 表示他并不知情。Midjourney 把 Stability AI 拉入黑名单了，禁止后者所有员工使用其软件，直至另行通知。这两家 AI 图像生成公司之间发生什么事了。虽然 AI 生图领域，看似百花齐放，但论资排辈，Midjourney、Stability AI 还是很受用户欢迎的。就算是竞争对手，Midjourney 也不至于禁止 Stability AI 员工使用其软件吧。事情是这样的，根据爆料者的信息显示：「Midjourney 服务器上周六凌晨受到与 Stabil

3/7/2024 2:57:00 PM

机器之心

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成（包含 Sora 依赖的底层的 DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原 ViT 类方法提升显著。论文标题：VisionLLaMA: A Unified LLaMA Interfac

3/7/2024 2:53:00 PM

机器之心

消息称新加坡主权财富基金淡马锡有意投资 OpenAI

感谢据英媒《金融时报》报道，新加坡主权财富基金淡马锡有意投资 OpenAI。淡马锡由新加坡财政部完全控股。2021 年淡马锡规模高达 3810 亿新加坡元（IT之家备注：当前约 2 万亿元人民币），与另一只新加坡政府所有的基金 GIC 一同进入主权财富基金榜单前十。两位知情人士透露，作为全球最大最活跃的投资者之一的淡马锡，其高管最近几个月多次会见了 OpenAI 首席执行官山姆・阿尔特曼（Sam Altman）。另一位熟悉内情的人士表示，双方谈判始于对阿尔特曼的风投基金 Hydrazine Capital 的投资，

3/7/2024 9:53:36 AM

溯波（实习）

AI 绘画神插件 LayerDiffusion 教程！直接用文本生成透明底图像！

大家好，这里是和你们一起探索 AI 的花生~ AI 绘画自出现以来一直都在不断发展完善，实现了很多我们在实际应用中迫切需要的功能，比如生成正确的手指、指定的姿势、准确的文本内容等。上周，又一个重磅新功能在开源的 SD 生态内实现了——直接通过文本直接生成透明底图像和图层！这将为 AI 绘画和设计领域带来了新的可能性，使图像形式更多样，也能给设计师带来更多便利。今天我们就一起来了解实现这一新功能的技术 LayerDiffusion，以及如何在 SD WebUI Forge 和 ComfyUI 中利用 LayerDi

3/7/2024 8:05:26 AM

夏花生

Stable Diffusion ComfyUI 进阶教程（一）：Controlnet 线条预处理器

前言：我们在前面的基础教程中已经知道怎么去连接 Controlnet 了，接下来我们就要去了解一下不同的 Controlnet 预处理器以及 Controlnet 模型分别有什么效果和作用；我们先从最常用的“线条预处理器”开始，这也是我们最常用的预处理器之一，我们做动漫转真人、真人转动漫、线稿上色等效果时必用的一个预处理器；我们会在“Controlnet 预处理器-线条”线条里面发现 14 个不同的预处理器，插件作者一直在更新，也许过段时间大家会看到更多的预处理器。一、线稿 1. Canny 细致线预处理器：①

3/7/2024 7:06:07 AM

搞设计的花生仁

刚刚，OpenAI官方发文驳斥马斯克，自曝8年间邮件往来截图

「不幸的是，人类的未来掌握在■■■的手上。」最热科技公司 OpenAI 对全球首富马斯克，这场史诗大战进入了新的高度。刚刚，OpenAI 用一篇长文《OpenAI and Elon Musk》，正式驳斥了马斯克的所有指控。标题简洁，但内容却相当吸引眼球。OpenAI 直接晒出了八年来各位创始团队成员与马斯克的往来邮件截图，并反复重申 OpenAI 对成立使命的不懈追求。文章开篇表示：「OpenAI 的使命是确保 AGI 惠及全人类，这意味着既要构建安全、有益的 AGI，又要帮助创造广泛的利益。我们正在分享我们在实现

3/6/2024 3:04:00 PM

机器之心

秘塔AI搜索！让你的信息获取效率提高 200%

大家好，我是花生~ 之前为大家盘点 2023 年年度 AI 神器的时候，提到过一款国外的 AI 搜索引擎 Perplexity，它可以综合网络最新信息，为用户提供准确、权威的答案，有效提升我们的信息获取效率。最近我发现了一款新的 AI 搜索工具 —— 秘塔 AI 搜索，它与 Perplexity 功能相似，但因为是国内产品，所以对中文用户更加友好，使用起来也非常方便，今天就为大家介绍一下它的用法和特点。相关推荐：秘塔 AI 搜索网址直达：秘塔 AI 搜索是今年年初刚上线的，由上海秘塔网络科技有限公司开发，这

3/5/2024 8:13:41 AM

夏花生

精彩程度堪比电视剧，马斯克与奥特曼、OpenAI的「爱恨纠缠史」

马斯克与 OpenAI 及奥特曼之间是理念不合，还是利益之争，我们只能从过往经历中寻得蛛丝马迹。这几天，马斯克起诉 OpenAI 的消息再次引爆了科技圈。这位前 OpenAI 联合创始人在一份长达 46 页、总字数超过 1.4 万字的诉讼文件中，指控 OpenAI 不计后果地开发人类级别的人工智能，并将其移交给微软。马斯克的诉讼直指 OpenAI 首席执行官 Sam Altman 和总裁 Greg Brockman，他们两人与马斯克合作，于 2015 年创立了这家公司。诉讼称，这两人违反了与马斯克最初达成的「创始协

3/4/2024 3:05:00 PM

机器之心

这家神秘的机器人初创，怕是藏不住了

机器之能报道编辑：Sia又一个加速家用机器人“ ChatGPT ”时刻到来的玩家，出现了。这家机器人初创一直笼罩在神秘之中，直到 Meta 首席 AI 科学家 Yann LeCun 在社交平台上转发它的招聘消息，并公布创始人之一是他在纽约大学的同事 Lerrel Pinto 。目前，网络上关于这家名叫 Fauna Robotics 的机器人公司的消息几乎为零，甚至找不到公司官网， X 平台官方账户也仅有一句简单介绍，他们 “正在创造一个人类与机器人物种群落共生、协作与共同繁荣的世界。” 不过，我们还是可以从 “

3/4/2024 3:02:00 PM

机器之能

53页PDF广泛流传，核心员工相继离职，OpenAI到底有什么秘密？

八卦络绎不绝，GPT-5 却一直没来。一份关于「OpenAI 在 2027 年实现 AGI」的 53 页 PDF，正在互联网上广泛流传。文档来源于一个名为「vancouver1717」的 X 账户，该账户注册于 2023 年 7 月，只有两条推文。最新发布的这个 PDF 文档称，OpenAI「将在 2027 年前开发出人类水平的 AGI」，「从 2022 年 8 月就在训练 125 万亿参数的多模态模型」，而且已经「在 2023 年 12 月完成了训练」，但是「由于高推理成本取消了发布」。其中提到，这个模型就是原计

3/4/2024 2:53:00 PM

机器之心

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式

3/4/2024 11:13:00 AM

机器之心

效率翻倍！6 款不容错过的免费 AI 神器

大家好，这里是你们一起探索 AI 的花生~ 好久没有做效率神器推荐了，最近接连看到了好几个非常有意思 AI 小工具，今天正好整理一下推荐给大家~ 相关推荐：一、Catjourney 网址直达： Catjourney 是由 @歸藏和 @ LysonOber 联合开发的一个提示词网站，专门收录高质量的 AI 绘画提示词，可以一键复制并用于 Midjourney、Dall·E 3 的出图；最近还新增了 Catjourney Weekly 版块，后续会在里面更新一些 Midjourney 的基础使用技巧。整个网站设计得

3/4/2024 12:52:32 AM

夏花生

如何用AIGC制作MV视频？全流程教程来了！

春节利用AIGC工具制作了一首嘻哈《恭喜发福》MV。这首歌很喜庆鬼畜，满满画面感。（歌手：孙旭/讲究制噪/DJ Baker/西略CRAT）当视频在手机上无法加载，可前往PC查看。接下来给大家拆解一下整个设计流程。更多AI视频神器：2024年，注定是AIGC发展的重要一年！从去年12月从Runway、Pika到前几天OpenAI发布劲爆更新Sora模型！AI视频直接生成60s，短短三个月 AI视频开始爆发式增长。

3/3/2024 6:52:22 AM

yaoyao

“国家队”评测30个大模型数学能力，九章、文心、星火位列前三

去年ChatGPT横空出世后，我国也迎来“百模大战”，大模型能力测评成为业界前沿课题。近日，大模型数学能力权威测评基准MathEval围绕数学能力，对国内外30个大模型（含同一模型的不同版本）开展测评。根据测评结果，学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中，学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中，都具备领先优势。数据显示，截至去年10月，国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域，包括数学问题解决、数据分析、学术研究、学习辅导等。目前，通用或垂类

3/1/2024 6:01:00 PM

新闻助手

海报素材不用愁！10 组高质量数字专题 Midjourney 提示词

大家好，这里是和你们一起探索 AI 绘画的花生~ 之前为大家系统讲解了如何在 Midjourney 中生成一套完整的数字，今天继续为大家推荐 10 组不同风格材质的数字主题 Midjourney 提示词，生成的图片可以当做海报主视觉或者装饰元素使用~ 上期回顾：一、油漆材质 Number 6, composed of colored paint, dynamic splash, floating on pure white background, minimalist, 3D rendering --v 6.0 数

3/1/2024 6:59:47 AM

夏花生

拿下微软合作、旗舰模型对标GPT-4，认识一下「欧洲版 OpenAI」

机器之能报道编辑：SiaMistral 目前法国科技界的骄傲和喜悦，也是开源力量的代表。它的初期成功要归功于能巧妙地将AI技术与政治结合起来。问题是Mistral能否将这种诱人的技术与政治混合优势转化为实实在在的利润。这家法国 AI 初创的崛起就像西北风一样轻快，这也是它名字 Mistral 的由来。Mistral 翻译过来是密史脱拉风，法国南部罗纳河谷一带特有的强风，干寒强烈，持续时间长。据说，梵高和高更的决裂也与普罗旺斯刮起的密史脱拉风有关。Mistral位于巴黎的办公室，它们也是法国目前最有前途的大模型初创公

2/29/2024 8:14:00 PM

机器之能

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 AI视频用哪个？6个知名的AI视频工具使用测评报告韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布GPT-4.1指令提示工程指南

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 人形机器人百度苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练