速度媲美官网？满血M3 Ultra推理6000亿参数DeepSeek R1

七奈兽 2025-03-11

[doge]这个有教育优惠，6万7就可以拿走

♥ 618 ↩ 54

chengxd达达 2025-03-12

这个视频做的好，但也有不少误导。特别是截屏出来的那个速度比8卡A100快，很能吸引人并且被广泛传播。但实际上答主只测试了单用户的token输出速度，又拿了60W功耗很低的说法，实际上大模型推理设备还会有TTFT（首个token输出时间）、多用户并发的总token速度、平均到单用户的功耗这些指标，以及你用的ollama这样的llama.cpp方案根本不是production scale，而是个人玩家尝鲜型的。用Mac推理，很多人都不提Time to First Token。就是你输入一段文字给他，他要首先进行预填充prefill，之后才能输出首个字。稍长一些的上下文，比如1K输入，就需要等待十几秒。第二个是A100你用了llama.cpp暂且不说这个方案是不是最优，人家8卡能服务大概100个并发，而如果是Mac的并发增加很快就不行了。第三就是功率也是有很强的误导性。8卡A100，或者8卡H100，平均到单个用户头上功率还真就只有30-50W。这个误导性类似于【ChatGPT一天耗电70万，人脑功率30W】，是典型的偷换概念，ChatGPT一天服务上亿用户，平均到单用户头上功率和人脑就是一样的。

♥ 543 ↩ 34

鹿衔草Lucensoul 2025-03-11

我没记错的话, 最晚在一年前, 那会ds还没火, 就已经有老哥发现Mac很适合跑极大参数量的MoE模型, 并且还发现在一些任务上效果比自己去微调稠密模型(那会还是主流)来得更好. 在目前来看苹果两次撞准了端侧推理的方向, 这个Mac Studio已经是现在版本答案了, 不过AI还是发展太快了, 将来说不定又整出啥新东西也未可知.

♥ 528 ↩ 54

pescn 2025-03-11

此外，我发现国内吹苹果适合本地推理LLM的这些博主一般会避免讨论一个问题，包括录屏也会避免拍到一个信息，Prefill速度，你可以理解成大语言模型理解上下文所需要使用的时间，这将主要影响在较大上下文的情况下，用户等首个Token输出需要等多久。一个外网有趣的测试，上下文达到4K的时候，模型的TTFT大概是30s左右，也就是说，你和模型多轮对话的时候，模型开始吐出第一个词的速度会越来越慢，甚至大于半分钟……

♥ 525 ↩ 32

憨憨憨涵 2025-03-11

LLM性能小白测评数据 32/70B 8bit：与M2U没差别 70B全精度：仅M3U可运行4.74tokens 671B 3bit： 21.88tokens，4bit：9.65tokens 张黑黑数据 671B 4bit：15.78 tokens（gguf），19.17（mlx），60w功耗

♥ 257 ↩ 31

GLAT巩振宁 2025-03-11

卧槽这也太牛逼了，我最近在考虑Mac Studio部署Qwen2.5Max 32B的版本，感觉预算3W就能搞下来，效果据说和671B的R1差不多

♥ 249 ↩ 27

新力说 2025-03-12

官网价格：M3 Ultra +512G 统一内存+1T固态硬盘 =74249

♥ 174 ↩ 30

七符开天 2025-03-11

就是dense和moe的区别，r1就是37B。这个本质目的就是权衡知识量和推理成本的方法，衡量指标也是参数量杠杆

♥ 155 ↩ 16

路人某某X 2025-03-12

请勿恰饭坑人。苹果在AI硬件领域上至少落后英伟达6年以上, 自从M1上线之后, 创始人跑路, 就决定了这一点。7w5大洋，正规企业能配两台并发6~7的q4 20token/s的服务器, q8 11.25token/s。只有没能力做任何事情的小白才会采购苹果的机子跑AI。

♥ 150 ↩ 47

秋风e叶落 2025-03-11

估计很多小公司会买，7万5预算，不算贵。

♥ 143 ↩ 36

吃啥拉啥1986 2025-03-11

有没有像我一样的，专业数据都不懂，看个热闹的。

♥ 88 ↩ 2

蚩壬的大鲨鱼 2025-03-11

这么算下来，每生成一百万token的耗电量还不到1度电，这成本优势也太恐怖了

♥ 85 ↩ 22

白饭炒白米饭 2025-03-11

这是 M2 本地跑 LLM 的性能对比，Apple Silicon 在跑 MLX 模型的时候，生成速度也会比 GUFF 快一点，占用的内存也要更小，还发现了一个有趣的事，就是 Apple MLX 引擎在推理的时候，CPU 资源使用量要比跑 GGUF 模型的更高。苹果从 A13 Bionic 开始在 CPU 顶部加入了 AMX 矩阵运算，AMX 运算单元可以加速机器学习的速度，Apple Silicon M 芯片自然也有 AMX 矩阵运算单元，甚至苹果还在 A17 Pro / M3 系列芯片开始为分别为 CPU 大小核的 AMX 单元增加了 AMX 缓存（可以通过 die shot 图看到 AMX 缓存存储单元）。

♥ 85 ↩ 7

pescn 2025-03-11

从功率到价格，其实M3U的性价比不能说高，对比8卡H20服务器：并发情况（20Token/s级别的并发）：8卡H20并发为35-40，M3U并发是1-2（相当于1:24）价格情况：8卡H20 8卡141GB版，价格为120万左右，24台M3U价格是7w5×24=180万功率情况：8卡H20是5000W左右，24台是295W×24=7080W 所以……对于超过16的并发的场景，性价比其实是比H20更低的（顺便H20还有97万的8卡96GB版本）

♥ 78 ↩ 41

MemoryIt 2025-03-11

油管老外用外置的插座，测出来跑r1-4比特量化时功率是169w，博主叫Dave2D

♥ 68 ↩ 10

要当太阳不当闪电 2025-03-11

个人部署的话阿里的QWQ 32B会更合适，q4需要21GB显存，q8 44GB显存，q16没见到有人部署，估计96G显存够用了。3090，4090可以玩玩q4版。

♥ 65 ↩ 16

VirnusLife 2025-03-12

不要误导观众，这不是完整版本，这个连8精度都吃不下

♥ 50 ↩ 2

abcddcbaffff 2025-03-11

过不久苹果就会拿m4 ultra背刺m3用户了[doge]

♥ 47 ↩ 15

Dean_Yu 2025-03-11

这里放一下八卡系统在vllm环境下的R1 awq推理速度，仅供参考： 8卡 A100 - 38tps 8卡 H100 - 48tps 希望苹果之后还是努力把显卡的GEMM 和SGEMM能力提上去吧。来源 https://huggingface.co/cognitivecomputations/DeepSeek-R1-AWQ

♥ 45 ↩ 5

速度媲美官网？满血M3 Ultra推理6000亿参数DeepSeek R1

合集 · 全面分析深度解析 (52)

Comments

速度媲美官网？满血M3 Ultra推理6000亿参数DeepSeek R1

合集 · 全面分析 深度解析 (52)

Comments

合集 · 全面分析深度解析 (52)