【深度】苹果牌AI计算卡！M5 Max AI性能深度分析！

虽然但是张黑黑

合集 · 全面分析深度解析 (52)

Description

M5 Max 最不寻常的地方，不是它更快了，而是它变了。它正在脱离传统笔记本 SoC 的逻辑，长出 Apple 专业级 AI 计算卡的轮廓。

Comments

Johna_ 2026-03-10

我是小白，我好奇为什么很多人都说在本地部署大语言模型？相比于直接用ChatGPT网页或者软件，有什么优势吗？

♥ 165 ↩ 97

invisparent 2026-03-10

Up的测评很有趣，但存在少许遗憾：没能和N卡做对比。恰好我手里有张5090，大致按照up的测试方法跑一轮，来看看Apple Silicon对比5090是什么样子的吧：测试平台：9950x3d+5090d魔龙，主板x670e暗黑，cpu pbo增强模式2其余自动，内存皇家寄48g*2=96g 6400c32一键xmp，电源一块硬盘若干，散热猫头鹰全家桶+pa602机箱稳稳压住不是问题测试使用win11，LM Studio 0.46+1，N卡驱动591.74，Cuda 13.1 测试方法：统一开64k上下文，思考模式开，跑三个模型，Qwen3.5的27b，35b-a3b，122b-a10b，其中35b-a3b使用官方q4量化，其余两个使用unsloth的q4_xl量化。供测试三项，第一项直接问大模型“详细解释一下Clang的LTO和PGO技术”看吐词速度，第二和第三项喂给大模型Clang的用户手册（https://clang.llvm.org/docs/UsersManual.html），长约48k token，让他详细总结一下，统计从发送文本到开始吐第一个词的时间，以及吐词速度结果如图二，从左往右三列分别对应三项的测试结果（短问答吐词速度，长问答首次吐词等待时间，长问答吐词速度），单位为秒、token每秒，保留至少两位有效数字特别提醒，122b-a10b的模型在5090上是爆显存的，这项测试的成绩请图一乐个人看法：毫无疑问在不爆显存的情况下M5Max无论如何在推理上都肘不赢5090。笔记本打台式机有点不公平，但考虑到128GB存储的mbp售价接近4w，这么比也算说得过去吧？要问结论的话，除非你有移动办公还有本地跑大模型推理的需求，且不在意mbp高昂的售价以及生态问题，那mbp是你最好，甚至是唯一的选择。否则，没有移动办公的需求，纯推理请考虑新一代Mac Studio，便宜不少，显得有些性价比。其余情形，特别是站在生态以及兼容性（特别是Cuda）的角度考虑，建议慎重

♥ 484 ↩ 150

坤儿哩 2026-03-10

MAC系列有没有性价比全看你的需求。你要是把MacBook的统一内存当内存用，MacBook的内存毫无性价比，简直是金子做的。但你要是把MacBook的统一内存当显存用，那相比于老黄的振金显存，MacBook简直太有性价比了[doge_金箍]

♥ 129 ↩ 19

奎地奇大王 2026-03-09

《你只需要专注力》人类读完只用20分钟？我感觉我不配做人

♥ 100 ↩ 5

Shabriri 2026-03-10

怎么都老惦记着本地部署模型，性价比低的要命

♥ 84 ↩ 76

LITTERTREE66 2026-03-09

Apple 10 GPU可惜的是不支持FP8/MXFP8，希望下次Apple 11能给Shader和NA都支持上。

♥ 53 ↩ 3

韵际_winge 2026-03-09

prefill强 decode一般，原来是openclaw专用机[星星眼]

♥ 45 ↩ 12

哎呀呀ayz 2026-03-10

弹幕真不像演的[笑哭]Mac能跑的大模型5090那点32g可怜显存都进不去[笑哭][笑哭]有性能用不出去

♥ 55 ↩ 36

精神胜利救不了自己 2026-03-10

说实话，国内这个免费环境，本地部署除了隐私，随便造的优势就没了。对于国内的免费环境是不如云端的，云端可以用满血大模型，满血大模型需要300-1000gb内存/显存，你要本地部署只能用低精度，低参数的小模型[笑哭]而且苹果的算力根本跑不了多模态，几个开源多模态也没招，关键他又有moe，显卡也能跑

♥ 55 ↩ 38

丶exciting丶 2026-03-10

这期文案的AI味也太浓了吧？虽然是商单，但是作为一个几十万粉的up主，还是要有点自己的思想在里面吧，而不是当AI传话筒。。。

♥ 48 ↩ 22

都市夜谭 2026-03-10

mac能跑得赢同级别的cuda吗同价位的

♥ 33 ↩ 44

圆小异的大同世界 2026-03-09

那M5Ultra岂不是更逆天[doge]

♥ 35 ↩ 52

金門2026 2026-03-11

一人血书求测m5 pro ai性能！！！想看的兄弟给我点赞👍！！！

♥ 34 ↩ 4

猫sr_ 2026-03-10

没极客湾我只能看你了

♥ 22

TKMY暮夕 2026-03-10

其实我不是很能理解为什么都在捣鼓qwen3.5 27B，明显35B的那个更有竞争力，在内存大了30％的情况下，每次只激活相当于27B的1/9的参数，吐字速度明显快一截，不是很香吗

♥ 13 ↩ 6

土木水博Crear 2026-03-09

呃，讲道理，attention is all you need根本不用读吧，llm模型知识库默认带这篇

♥ 13 ↩ 10

stevapple 2026-03-09

神奇的更新时间…… M5家族引入的果味Tensor Core解决了TTFT太长的毒点，真正意义上让dense模型也变得能用了。考虑到MoE目前并未杀死比赛，这让它在未来更有可能成为本地大模型的合格载体

♥ 21 ↩ 1

Liuxudong926 2026-03-10

张黑黑讲的内容超出我知识范围了听不懂，但支持一下！请教一下张黑黑：你觉得Apple会推出自己的大语言模型吗？

♥ 20 ↩ 17

HooinKyoma_001 2026-03-10

我选择h100，部署了27BFP8，开启mtp与256k上下文刚好吃满80g显存，16k上下文情况下prefill约10000 token/s，decode 100token/s（单并发[脱单doge]

♥ 21 ↩ 7

士大夫留个记号 2026-03-10

为什么有人总盯着性能/速度的数字而忽略了显存本身是否能支持模型?128gmac部署大模型就算再慢他起码能跑,你搞个同价位48g5090他根本跑都跑不起来,速度再快有什么用?

♥ 31 ↩ 9