【深度】比YU7还贵的Mac跑AI！对话EXO创始人Alex Cheema

虽然但是张黑黑

合集 · 全面分析深度解析 (52)

Description

exoLabs的创始人Alex向我们展示了他们的下一代产品，exo2。并使用四台顶配的M3 Ultra Mac Studio组建起群，本地并行推理V3+R1模型。我也是得到了一个难得的机会，与exoLabs的创始人Alex Cheema进行了访谈对话，围绕本地大模型推理，exoLabs展开了讨论。

Comments

冰镇灌汤包 2025-08-09

44w人民币，400w功耗...这性价比确实能把老黄的卡比下去[笑哭]，重点是省电啊

♥ 564 ↩ 46

遇见群星 2025-08-09

最有趣的是四台连在一起也比一个台式机大不了那去，哈哈哈

♥ 208 ↩ 11

蚂化腾666 2025-08-09

评论区好多懂哥觉得低功耗没意义，实际上对企业来说那电费动不动就是几千万

♥ 88 ↩ 22

摸鱼awa 2025-08-09

很多人一直鼓吹ARM，实则没看多少书，ARM是RISC，X86是CISC,RISC只有在低并发、高吞吐的计算、可并行拆分的任务下才能体现优势，比如手机平板微处理器，但是对于依赖高单线程频率的处理，能效比仍然很低，还有需要极大缓存或带宽的场景(天气预测,空气动力学仿真等)，至于功耗，全球超算排名第二的Fugaku的arm 处理器A64FX TDP 约 200W，全系统（158,976 个节点）总功耗接近 30 MW。全球超算排名第一的Frontier（AMD EPYC + GPU）以 AMD EPYC 7A53（TDP 280W）配合 GPU 构成，功耗约 21 MW，性能更高（FLOPS 高出 Fugaku 近 2 倍），功耗小了不少，并且PCIe 5.0/6.0都是在x86首测的，方便大规模 GPU、FPGA、加速卡的部署。特别是在超算里 I/O 带宽直接影响整体性能。还有x86也在不断改进,AMD的Chiplet 技术和3D堆叠，特别是zen5架构，有着更高 IPC、更多核心、更低功耗，重点优化 AI 加速指令。INTEL还有性能核和效率核混合设计(不过intel再用14nm++++，怎么改都没用)，虽然ARM也有SVE，效率仍然不如AVX,，我只能说未来是多架构并存，各自发挥长处，竞争和协作并存的格局（X86很难做嵌入式，但RISC-V、ARM就行），而非单一架构全面胜出。(手打不易，有错请纠)

♥ 77 ↩ 26

大宽大宽 2025-08-09

这可是比小米YU7 max还要贵的Mac[doge_金箍]

♥ 40 ↩ 6

xAIat 2025-08-11

我用我的 Mac Studio M3 Ultra 512GB 在 LM Studio 上运行 openai/gpt-oss-120b (8bit) (124GB大小) 的模型速度在55token/s.

♥ 38 ↩ 2

评论区知名UP主蜡小新 2025-08-09

内存比我硬盘都大

♥ 36

bili_1286257 2025-08-13

这种东西看看就行了，动真格还得看苹果官方下场。苹果现在非常在意AI领域，但是时间台紧迫，m3ultra只为迎合deepseek浪潮，整了个超大内存版，但技术上和m2ultra其实没有什么变化等出了m4u、m5u，技术更新一波，并且内存上限继续拉高，这种第三方的玩具就毫无性价比了

♥ 35 ↩ 2

cobranail 2025-08-09

雷电网络，上限就是4台了吧

♥ 32 ↩ 4

哎呦丶你干嘛彡 2025-08-09

这才40来万[笑哭]性价比确实拉满，比老黄好

♥ 31 ↩ 6

Lancelot丶丿 2025-08-10

跑一下8，16，32，64并发，看一下TPS，TTFT，TPM这些参数吧。光看单用户输出，不能证明在商业环境好用

♥ 30 ↩ 4

wangr927 2025-08-16

不看好，mac 的并行单元数放在那，就算一个请求能到20tokens，并发一上来模型prefill阶段就能慢得没法用，ultra 还是适合工作站。运行小模型，比如qwen235 gptoss glm4.5air 这个价格不如买8卡5090。甚至sglang 英特尔xeon6 那个推理方案我都觉得更靠谱，两颗6980配个2tb内存，主要cpu方案更灵活，不跑大模型模型了跑其他软件集群都能用

♥ 19

聽日見 2025-08-09

帶寬仲要提升

♥ 17

Lambda_K 2025-08-09

太棒了已三连[鸡腿]永远可以相信黑黑的视频[星星眼] 几点印象： EXO的初心和目标就是：只要是有算力的设备，就可以串起来自动分配任务合力计算 MOE的架构使得大内存更重要，相比稠密模型，每次需要激活较少的参数，所以算力需求更少，tokens/s更高 TB5使得设备互联速率更快，对模型推理也有帮助 LLM作为“外脑”，本地随时调用还是更方便，本地跑LLM的需求一定有，可能还会更大

♥ 17

Metro186 2025-08-10

我的M4 Max运行qwen30b，98tokens/秒

♥ 13

Sudark 2025-08-11

不明白大家为什么这样死脑筋。追cuda肯定是要沉淀的，但Mac主打的是能耗比和噪音控制，对于个人，我也有win pc但是我还要干其他的事情，打游戏什么的，在win上用更高效的cuda微调完模型把权重文件给mac再去跑推理，非常安静，又特别省电，换成cuda跑可能就快个十几秒，我又不在乎，我打我的游戏就好了，刚好还能给Mac找点事做。

♥ 11 ↩ 1

枸杞去唱戏 2025-08-10

没太明白为什么非得用mac跑个人推理级AI，明明1-2张RTX pro 6000也行

♥ 9 ↩ 8

小鼠同学Minimouse 2025-08-09

我在思考一个事，如果未来制造出了仿生人形机器人，那机器人的体内空间能装下用于支持它各种ai软件的gpu吗，比如说最核心负责意识和思考的ai（大脑）,还有周边处理传感器数据的ai（小脑）

♥ 9 ↩ 11

爱吃糯米饭的 2025-08-10

所以这四台 mac stuio 的推理能力是不是跑不过一台 H20？毕竟那边阉割的只剩推理能力了，mac 也几乎没法炼丹。。。H20 价格是 10 万rmb不到，买四张 H20 也可。。。。

♥ 9 ↩ 5

【深度】比YU7还贵的Mac跑AI！对话EXO创始人Alex Cheema

合集 · 全面分析 深度解析 (52)

Comments

合集 · 全面分析深度解析 (52)