Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

2025-04-08 03:44

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……还被做成表情包调侃，总结起来就是一个“差评如潮”。具体来看，大家的抱怨主要集中在代码能力。最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

Meta最新基础模型Llama 4发布36小时后，评论区居然是这个画风：

失望，非常失望不知道他们后训练怎么搞的，总之不太行在[各种测试]2中失败……

还被做成表情包调侃，总结起来就是一个“差评如潮”。

具体来看，大家的抱怨主要集中在代码能力。

最直观的要数经典“氛围编程”小球反弹测试，小球直接穿过墙壁掉下去了。

反映在榜单上，成绩也相当割裂。

发布时的官方测评（LiveCodeBench）分数和在大模型竞技场表现明明都很不错。

但到了各种第三方基准测试中，情况大多直接逆转，排名末尾。

让人不由得怀疑，这个竞技场排名到底是数据过拟合，还是刷票了。

就在Llama 4即将发布前几天，Meta AI研究主管Joelle Pineau在工作8年之后突然宣布离职，总之就是不太妙。

Llama 4怎么了?

大模型关注者们火热实测吐槽之际，一则有关Llama 4的匿名爆料，突然引起轩然大波：

有网友称自己已向Meta GenAI部门提交提交辞职，并要求不要署名在Llama 4的技术报告上。

原贴发布在海外留学求职交流平台一亩三分地，在国内也引起很多讨论。

此爆料尚未得到证实，但有人搬出Meta GenAI负责人Ahmad Al-Dahle的帖子，至少能看出在Llama 4大模型竞技场里运行的是特殊版本模型。

还有Meta前员工借此话题贴出2024年11月的一项研究，指出从Llama 1开始数据泄露的问题就存在了。

也不只是编程能力一个方面有问题，在EQBench测评基准的的长文章写作榜中，Llama 4系列也直接垫底。

榜单维护者_sqrkl说明了具体情况。

测试非常简单，模型需要先完成一个短篇小说的头脑风暴、反思并修改写作计划，最终每轮写1000字，重复8轮以上。

由Claude-Sonnet 3.7来当裁判，先对每个章节单独打分，再对整个作品打分。

Llama 4的低分表现在写到后面开始大段的内容重复，以及写作非常公式化。

对此结果，有一个猜想是之前的版权诉讼让Meta删除了网络和书籍数据，使用了更多的合成数据。

在这场诉讼中，许多作家发现自己的作品可能被用于AI训练，还到伦敦的Meta办公室附近发起抗议。

Llama 4发布后的种种，让人联想到年初的匿名员工爆，有网友表示当初只是随便看看，现在却开始相信了：

在这条爆料中，Deepseek v3出来之后，训练中的Llama4就显得落后了，中层管理的薪水都比DeepSeek V3的训练成本都高，Meta内部陷入恐慌模式。

让人不由得感叹，DeepSeel-R1横空出世仅仅两个月时间，却像过了几辈子。

参考链接：[1]https://www.reddit.com/r/LocalLLaMA/comments/1jt7hlc/metas_llama_4_fell_short/[2]https://www.1point3acres.com/bbs/thread-1122600-1-1.html[3]https://x.com/suchenzang/status/1909070231517143509https://x.com/TheAhmadOsman/status/1908833792111906894

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

DeepSeek版o1，有消息了。还未正式发布，已在代码基准测试LiveCodeBench霸榜前三，表现与OpenAI o1的中档推理设置相当。注意了，这不是在DeepSeek官方App已经能试玩的DeepSeek-R1-Lite-Preview（轻量预览版）。

1/20/2025 8:46:00 AM

量子位

真·ChatGPT平替：无需显卡，MacBook、树莓派就能运行LLaMA

Meta 在上个月末发布了一系列开源大模型 ——LLaMA（Large Language Model Meta AI），参数量从 70 亿到 650 亿不等。由于模型参数量较少，只需单张显卡即可运行，LLaMA 因此被称为 ChatGPT 的平替。发布以来，已有多位开发者尝试在自己的设备上运行 LLaMA 模型，并分享经验。

3/14/2023 2:16:00 PM

机器之心

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

今天凌晨，大新闻不断。一边是 OpenAI 的高层又又又动荡了，另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新：不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型，还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此，Meta 还正式发布了 Llama Stack Distribution，其可将多个 API 提供商打包在一起以便模型方便地调用各种工具或外部模型。此外，他们还发布了最新的安全保障措施。真・Open AI

9/26/2024 2:33:00 PM

机器之心

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

Llama 4怎么了?

相关资讯

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

真·ChatGPT平替：无需显卡，MacBook、树莓派就能运行LLaMA

刚刚，Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本