模型 - AIGC宇宙

OpenAI 新动态：改善微调 API，扩展定制模型计划

感谢OpenAI 公司近日发布新闻稿，宣布改善微调（fine-tuning）API，并进一步扩展定制模型计划。IT之家翻译新闻稿中关于微调 API 的相关改进内容如下基于 Epoch 的 Checkpoint Creation在每次训练 epoch（将训练数据集中的所有样本都过一遍（且仅过一遍）的训练过程）过程中，都自动生成一个完整的微调模型检查点，便于减少后续重新训练的需要，尤其是在过拟合（overfitting，指过于紧密或精确地匹配特定数据集，以至于无法良好地拟合其他数据或预测未来的观察结果的现象）的情况下。

Anthropic 用 256 轮对话「灌醉」大模型，Claude 被骗造出炸弹

【新智元导读】Anthropic 发现了大模型的惊人漏洞。经过 256 轮对话后，Claude 2 逐渐被「灌醉」，开始疯狂越狱，帮人类造出炸弹！谁能想到，它的超长上下文，反而成了软肋。大模型又被曝出安全问题？这次是长上下文窗口的锅！今天，Anthropic 发表了自己的最新研究：如何绕过 LLM 的安全限制？一次越狱不够，那就多来几次！论文地址： Claude3 一家叫板 OpenAI 之余，Anthropic 仍然不忘初心，时刻关注着他的安全问题。一般情况下，如果我们直接向 LLM 提出一个有害的问题，LLM

苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4，可大幅提升 Siri 智能程度

虽然目前 Siri 可以尝试描述信息中的图像，但效果并不稳定。不过，苹果公司并没有放弃人工智能领域的探索。在最近的一篇研究论文中，苹果的人工智能团队描述了一种可以显著提升 Siri 智能的模型，而且他们认为这个名为 ReALM 的模型在测试中优于 OpenAI 的知名语言模型 GPT-4.0。IT之家注意到，ReALM 的特别之处在于，它可以同时理解用户屏幕上的内容和正在进行的操作。论文将信息分为以下三种类型：屏幕实体：指的是当前显示在用户屏幕上的内容。对话实体：指的是与对话相关的内容。例如，用户说“打电话给妈妈”

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

根据 LMSYS Org 公布的最新基准测试报告，Claude-3 得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天

OpenAI 的 GPT 商店审核失控：被指充斥侵权和垃圾内容

旨在提供从编程辅助到健身建议等各种功能的 GPT 模型的 OpenAI GPT 商店正面临质量和合规性问题。据 TechCrunch 调查，该商店存在大量涉嫌侵犯版权的 GPT 模型，例如未经授权生成迪士尼和漫威角色内容的“钢铁侠”GPT 或 “米奇老鼠”GPT。IT之家注意到，尽管 OpenAI 采用了结合自动检测和人工审查的审核制度，但大量的 GPT 模型显然逃过了审核。另一个问题是学术诚信，一些 GPT 模型声称可以绕过内容剽窃检测工具，助长抄袭行为。例如，有两个 GPT 模型，一个声称是高级的改写工具，另一

OpenAI CEO 阿尔特曼：GPT-4“有点糟糕”，今年将推出新模型

OpenAI 首席执行官萨姆・阿尔特曼 (Sam Altman) 在周一发布的与列克斯・弗里德曼 (Lex Fridman) 的访谈中表示，他们公司的人工智能模型 GPT-4 其实“有点糟糕（kinda sucks）”，阿尔特曼更期待即将到来的 GPT-5 能够真正配得上大家的期待。“我认为它有点糟糕，” 当被问及 GPT-4 及其最令人印象深刻的能力时，阿尔特曼说道，“展望未来几年，我们应该意识到我们现在拥有的工具将来看来会非常落后，这正是鞭策我们不断进步、创造更美好的未来的动力。”“别误会，我既不想贬低 GPT

定位产业AIGC化加速器 “云阙AI”大模型垂直应用正式发布

2024年3月17日，由北京师范大学新闻传播学院、北京师范大学新媒体传播研究中心、出版业用户行为大数据分析与应用重点实验室主办，上海云阙智能科技有限公司（云阙智能）协办的 “京师大模型传播应用系统第二期发布暨大模型垂直应用论坛”成功召开。在此次论坛中，云阙智能正式发布了其创新自主研发的大模型垂直应用——“云阙AI”。该平台具备多模态、跨媒体、全场景的AIGC内容营销能力，旨在赋能企业和超级个体在数字化和智能化转型过程中实现战略升级，并提供综合全面的AIGC专业培训、技术工具及营销解决方案。目前，“云阙AI”已成功实

全球首个类 Sora 开源复现方案来了！全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型，来了！整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后，该团队再次发布最

OpenAI 官方博客提前泄露 GPT-4.5 Turbo，有望今年夏天发布

感谢OpenAI 近期可能意外泄露了旗下即将发布的 GPT-4.5 Turbo 大型语言模型信息。网友发现，OpenAI 博客上疑似上线了一篇有关 GPT-4.5 Turbo 的文章，但该页面目前已被撤回，搜索引擎也无法再检索到相关信息。泄露的信息显示，GPT-4.5 Turbo 将在速度、准确性和可扩展性方面全面超越其前代 GPT-4 Turbo。更关键的是，泄露的描述中提到了该模型的“知识截止日期”为 2024 年 6 月。这一信息引发了诸多猜测，有人认为是笔误，也有人推测 OpenAI 可能会在今年 7 月或

微软 Copilot 全面升级 OpenAI GPT-4 Turbo 模型，包括免费用户

在经过一系列工作之后，微软现已针对 Copilot 用户群全面升级为 OpenAI 最先进的 GPT-4 Turbo 模型。IT之家提醒，Copilot Pro 用户如果不习惯的话还可以切换回标准 GPT-4 模型，但免费用户是没有选择权的。微软 Copilot 最初是作为 Bing Chat 聊天机器人推出的一款产品，早期迭代依赖于 GPT-3.5 模型，后来升级到 GPT-4 后有了大幅改进，而现在又升级到了 GPT-4 Turbo 模型，这意味着 Copilot 功能又一次实现飞跃。GPT-4 Turbo 以

谷歌承认“窃取”OpenAI 模型关键信息：成本低至 150 元，调用 API 即可得手

什么？谷歌成功偷家 OpenAI，还窃取到了 gpt-3.5-turbo 关键信息？？？是的，你没看错。根据谷歌自己的说法，它不仅还原了 OpenAI 大模型的整个投影矩阵（projection matrix），还知道了确切隐藏维度大小。而且方法还极其简单 —— 只要通过 API 访问，不到 2000 次巧妙的查询就搞定了。成本根据调用次数来看，最低 20 美元以内（折合人民币约 150 元）搞定，并且这种方法同样适用于 GPT-4。好家伙，这一回阿尔特曼是被将军了！这是谷歌的一项最新研究，它报告了一种攻击窃取大模

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。在谷歌时，Yi T

谷歌被曝翻车内幕：内部群龙无首，生图机制过分“多元化”

感谢IT之家网友 rolan6 的线索投递！谷歌 Gemini 文生图风波还未平，更劲爆的内幕消息又被曝出来了。Pirate Wires 爆料，Gemini 这次的翻车，谷歌内部此前并不是毫不知情，翻车甚至是“故意”导致的。具体来说，谷歌设置了一个“安全”架构，Gemini 要生成一张图实际上要经过三个模型。大概来说，流程是这样的：用户在聊天界面请求 Gemini 生成一张图片，Gemini 收到请求后，会把请求发送给一个较小的模型。这个较小的模型的作用是根据公司的“多元化”政策重写用户的提示。为做到这一点，这个较

模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

在目前的模型训练范式中，偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中，偏好数据通常被用作对齐（alignment）时的训练优化目标，如基于人类或 AI 反馈的强化学习（RLHF/RLAIF）或者直接偏好优化（DPO），而在模型评估中，由于任务的复杂性且通常没有标准答案，则通常直接以人类标注者或高性能大模型（LLM-as-a-Judge）的偏好标注作为评判标准。尽管上述对偏好数据的应用已经取得了广泛的成效，但对偏好本身则缺乏充足的研究，这很大程度上阻碍了对更可信 AI 系统的构建。为此，上海交通大学生成式

拿下微软合作、旗舰模型对标GPT-4，认识一下「欧洲版 OpenAI」

机器之能报道编辑：SiaMistral 目前法国科技界的骄傲和喜悦，也是开源力量的代表。它的初期成功要归功于能巧妙地将AI技术与政治结合起来。问题是Mistral能否将这种诱人的技术与政治混合优势转化为实实在在的利润。这家法国 AI 初创的崛起就像西北风一样轻快，这也是它名字 Mistral 的由来。Mistral 翻译过来是密史脱拉风，法国南部罗纳河谷一带特有的强风，干寒强烈，持续时间长。据说，梵高和高更的决裂也与普罗旺斯刮起的密史脱拉风有关。Mistral位于巴黎的办公室，它们也是法国目前最有前途的大模型初创公

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域，恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天，OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区，其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已，直呼「好莱坞的时代结束了」。仅仅一年时间，文本生成视频的效果迎来了质的飞跃。图源：，随着 Sora 加入这场视频生成领域的战争，受到冲击最大的是同类竞品模型，比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后，很多人认为，S

讯飞星火V3.5正式发布，基于全国产算力平台“飞星一号”训练

1月30日，科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5。2023年10月24日，科大讯飞携手华为，宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。启用后的90多天里，讯飞星火基于“飞星一号”，启动了对标GPT-4的更大参数规模的大模型训练，带来了1月30日这场讯飞星火V3.5升级发布。首个基于全国产算力训练的全民开放大模型讯飞星火V3.5在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能

Meta官方的Prompt工程指南：Llama 2这样用更高效

随着大型语言模型（LLM）技术日渐成熟，提示工程（Prompt Engineering）变得越来越重要。一些研究机构发布了 LLM 提示工程指南，包括微软、OpenAI 等等。最近，Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南，涵盖了 Llama 2 的快速工程和最佳实践。以下是这份指南的核心内容。Llama 模型2023 年，Meta 推出了 Llama 、Llama 2 模型。较小的模型部署和运行成本较低，而更大的模型能力更强。Llama 2 系列模型参数规模