前些天,英伟达发布了一大堆东西,其中包括一款 AI 超级计算机 Project DIGITS,机器之心也在第一时间进行了报道,参阅《RTX5090 震撼发布,国行 16499 元起,黄仁勋「美国队长」pose 亮翻全场》。在这篇文章的评论区,一位读者的问题引发了不少争议。
虽然该问题的最高赞回复表示这是「英伟达被黑得最惨的一次」,但实际上使用 Mac Mini 作为个人的大模型运行平台并不是什么罕见操作。
Fast Company 甚至认为 M4 Mac Mini 是「测试 AI 的完美计算机」。
你也能在社交网络上找到许多用户分享的经验。
其实,上图中的这位 Alex Cheema 不仅仅是在 Mac Mini 上运行自己的个人 LLM 集群,也是在为自家公司 EXO Labs 做概念验证。其在今年初宣布推出了 EXO Gym 竞赛,开始测试能否在较慢的互联网带宽上实现有效的低延迟训练,而他们为此准备的 Mac Mini 数量更是多达 1000 台!是的,你没有看错,不只是使用 Mac Mini 来执行推理,还使用它们来训练模型。
当然,这种做法同样也是极具争议,不过有兴趣自己尝试的读者也可使用他们的开源软件库,目前该项目已经收获了超过 1.84 万 star。
- GitHub 地址:https://github.com/exo-explore/exo
总之,至少在运行推理方面,看起来使用 Mac Mini 确实可行。现在,我们就来严肃地讨论一下这个问题:对于个人用户而言,如果想自己跑本地大模型,Mac Mini 和英伟达 Project DIGITS 到底选哪个更好?
参数对比
比较谁更胜一筹的最直观方法是比较它们的参数。
价格
首先来看价格。
根据芯片、内存和硬盘的不同配置,M4 和 M4 Pro 芯片的国行版 Mac Mini 价格从 4499 元到 35749 元人民币不等,国际版则是从 599 美元到 4699 美元不等。
而 Project DIGITS 目前已知的起售价为 3000 美元。而这个 3000 美元版本的配置情况大概是 128GB 内存和高达 4TB 的 NVMe 存储。
而 64GB 内存和 4TB 硬盘的 M4 Pro 版 Mac Mini 的官方价格就已经达到了 3199 美元起,超过了 Project DIGITS。
配备 12 核 CPU、16 核 GPU 和 16 核 Neural Engine 的 M4 Pro 芯片的 Mac Mini,当选择 64GB 内存和 4TB 硬盘时,售价为 3199 美元
因此至少在价格上,Project DIGITS 先拿下一分。
性能参数
目前,由于 Project DIGITS 还没上市,因此我们自然无法获取其与 Mac Mini 的直接性能对比数据,但我们可以通过一些基本的配置情况来进行最基础的评估。
首先是 CPU 和 GPU。Project DIGITS 采用的计算核心是 GB10 Superchip,由 Grace CPU 和 Blackwell GPU 组成。其中,Grace CPU 配置了 20 个采用 Arm 架构构建的高能效核心,GPU 则是先进的 Blackwell,采用了最新一代 CUDA 核心和第五代 Tensor Cores,可实现 1 PetaFLOP FP4 的 AI 计算。1 PetaFLOP!着实吓人,不过这是 FP4 精度的。如果等价到 FP16 精度,则可以说是 250 TFLOPS(当然这种算法很不严谨)。
英伟达表示,借助这款超级计算机,开发者可以运行多达 2000 亿参数的大型语言模型,从而加速 AI 创新。此外,借助 NVIDIA ConnectX 网络,还可将两台 Project DIGITS AI 超级计算机连接起来,运行多达 4050 亿参数的模型。也就是说,足以运行 Llama 3.1 405B。
而 Apple M4 Pro 芯片的 CPU 则是 12 核,其中包含 8 个性能核心与 4 个效率核心;GPU 则是 16 核版本。而其在 FP16 精度下的速度为 17 TFLOPS 。
根据 Alex Cheema 的计算,Project DIGITS 可以说在各个层面都碾压了 M4 Pro Mac Mini。
简单算算性价比:
- Project DIGITS:250 TFLOPS / $3,000 ≈ 0.083 TFLOPS/美元
- M4 Pro Mac Mini:17 TFLOPS / $2,200 ≈ 0.0077 TFLOPS/美元
也就是说,用同样的钱,能从 Project DIGITS 获得超过 M4 Pro Mac Mini 超过 10 倍的算力!
不过知乎用户 Karminski - 牙医也指出了 Project DIGITS 的一大不足。他表示「它是统一内存,即 CPU 和 CPU 共享 LPDDR5X。它不是 GDDR6,也不是 HBM2 的。」
虽然该设备的内存有 128 GB,「但是根据 Grace 架构 CPU 的 Product Brief,单 CPU 的内存带宽最大只有 512GB/s。所以如果用这个设备来运行大语言模型,瓶颈就会变成这个内存带宽。」
他也做了一番计算,得出的结论是「在 512GB/s 的情况下,运行 70b-4bit 规模的模型,生成速度理论最大值是 512/40=12.8 token/s。如果想要运行 200B 规模的模型 (200B4bit 量化大概是 114GB),理论生成速度是 512/114≈4.5token/s」。
因此,Project DIGITS 可能也暗暗经受了老黄擅长的刀法。
Project DIGITS 果真赛高
整体来看,读者 Thomas Copper 确实没有说错,至少在 AI 计算任务上,Mac Mini 确实远远不及 Project DIGITS。但需要说明,Mac Mini 并不是专为 AI 任务打造,也适用于各种日常和工作任务。
之前不少人表示 Mac Mini 是实现 AI 普及化(democratize AI)的开始,但实际比较下来,或许真正的开始是英伟达 Project DIGITS!
不过也需指出,Project DIGITS 才刚刚露脸,预计要到 5 月份才上市,市场表现究竟如何还有待检验——毕竟我们到时才能真正知道「皮衣刀客」究竟刀了哪些地方。但至少从社交网络上的分享来看,已经有不少人准备好自己的钱包了。
对此,你有什么看法呢?