使用 MLX 在 Mac 上本地运行 AI 智能体

在本地运行 AI 智能体，兼顾隐私保护、低延迟和离线访问。深入了解 MLX 改进和 Mac 硬件如何彼此配合，让强大的智能体工作流程能完全在设备端实现。你将探索 OpenCode 等编码智能体，看看这些智能体如何集成到 Xcode 中；还将了解实现多台 Mac 扩展的技巧，以及不用切换设备就能无缝整合各种工具的做法。

章节

资源

相关视频

WWDC26

WWDC25

你好我是Angelos MLX团队的工程师

今天我来展示如何构建并完全在你的Mac上使用MLX运行智能体AI工作流无需云端无需API密钥只靠你的硬件完成工作过去一年里 AI智能体已从研究原型演变为日常生产力工具但在讨论智能体之前先来看看我们之前有什么

这是你熟悉的对话体验你向语言模型发送提示模型返回响应如果你需要基于响应执行命令检查文件或修复错误这些都需要你自己来做但现在你在与智能体交互智能体与模型交互以决定下一步操作然后它调用工具来实际执行运行命令读取文件调用API—— 它观察结果并返回模型以确定下一步用户到智能体智能体到模型智能体到工具这就是智能体循环它不断循环直到任务完成这在Apple silicon上尤为令人兴奋整个循环可以在本地运行

你的数据留在本机 AI随时随地可用且无需使用费用现在让我展示实际效果是什么样的

这是一个在我Mac上本地运行的智能体屏幕上可以看到设置左侧是运行模型的MLX 右侧是我正在使用的 OpenCode智能体

我请它获取MLX仓库的最近Pull Request 总结变更内容并指出需要我关注的事项模型分析请求调用GitHub CLI获取PR数据读取差异内容并生成简洁摘要这一切都在本地完成模型在我的硬件上运行只有git命令会访问网络看来这个视频结束后我还有很多工作要做现在你已经看到了可能性让我带你了解今天我们将如何实现它我们首先介绍本地智能体AI技术栈让一切成为可能的四个层次从底层的MLX 一直到顶层的智能体然后我将一步一步展示如何搭建你自己的本地智能体之后我们看看MLX如何充分发挥你的硬件性能

让智能体运行得更快最后我们将进行更多实机演示包括从零构建SwiftUI应用以及在Xcode中修复Bug 让我们从技术栈开始

支撑Mac本地智能体AI的技术栈共有四个层次让我带你了解每一层从底部开始最底层是MLX 我们专为Apple silicon 构建的开源数组框架它负责所有底层计算 Metal加速和内存管理这是一切的基础往上一层是语言模型层 MLX-LM提供加载运行量化以及微调大型语言模型所需的一切它支持HuggingFace 上数千个模型并同时提供CLI工具和Python API 如果你看过我们去年的议程这正是我们深入介绍的内容但为了服务智能体我们需要更多一个具有标准API的持久化服务器这就是MLX-LM Server的用武之地这是一个兼容OpenAI的HTTP服务器通过标准API暴露你的本地模型它支持结构化工具调用让模型可以可靠地调用函数以及推理模型可以逐步分析复杂问题然后再给出响应它可以直接替代任何云端LLM API 技术栈的顶层是智能体本身这可以是任何框架或支持OpenAI 聊天补全协议的工具 Xcode OpenCode Pi智能体自定义脚本或任何其他工具由于MLX-LM Server 提供标准接口任何智能体框架都可以开箱即用不只是我们在构建这个技术栈多个流行应用和工具都基于MLX和MLX-LM构建 Ollama LM Studio和vLLM 是其中最受欢迎的几个生态系统广泛且持续增长如果你正在使用这些工具很可能你已经在运行MLX了

这就是整个技术栈现在让我展示如何自己搭建一切

只需三个步骤即可从零到完整的本地智能体工作流第一步：安装MLX-LM 一条pip install命令即可获取所需的一切第二步：启动服务器使用支持工具调用的模型运行mlx_lm.server 先用小模型测试你的配置始终是个好主意服务器启动并加载模型准备好在本地主机上接受请求第三步：将智能体指向本地服务器在大多数智能体框架中只需将base URL设置为本地服务器地址就完成了智能体不知道也不关心模型是在你的Mac上运行还是在云端

让我展示一个具体示例这是OpenCode的配置我们定义一个本地提供者具体来说我们将URL 设置为本地主机并设置服务器期望的模型名称我们还告诉OpenCode 对所有内容使用这个本地模型就这样现在每次交互都通过你的本地模型进行

现在智能体已经与MLX通信让我们来看看MLX如何充分发挥你的硬件性能并解决在本地运行智能体的主要挑战

第一个挑战是提示处理在智能体工作流中每次模型收到工具输出它必须先处理所有新上下文才能推理下一步

这在整个智能体循环中反复发生累积很快智能体会话通常包含数十万个Token 其中大多数并非生成的

M5芯片引入了专用的 Neural Accelerator MLX可以针对这类工作专门使用它们具体来说 Neural Accelerator 使矩阵乘法在M5上比M4快四倍配合MLX中专用的乘法和注意力内核这几乎直接转化为提示处理速度的提升

减少提示处理时间意味着你的智能体可以读取代码库或处理工具结果的速度快近四倍最棒的是什么？使用Neural Accelerator 不需要任何特殊参数或修改你的代码 MLX会为可用硬件自动选择最佳内核

现在来聊聊第二个挑战：并发实际上智能体很少单独工作常见的模式是一个智能体派生多个子智能体每个子智能体并行处理问题的不同部分一个可能在读取文档另一个在搜索代码第三个在编写测试三者同时进行这意味着多个请求同时发送到你的本地模型 MLX-LM Server通过连续批处理来处理这个问题

它不是逐个处理请求而是将进入的请求动态分组为批次并在GPU上一起处理新请求可以加入正在进行的批次无需等待当前批次完成结果是你的子智能体不会在队列中等待停滞它们都被并发处理这让整个智能体工作流持续运转最后第三个挑战是模型大小有时单台机器即使有512GB内存也不够用因为模型太大无法装入内存以最新的DeepSeek模型为例它拥有1.6万亿个参数仅权重就需要超过 800GB的内存 MLX的分布式支持让你可以跨多台Mac分散模型通过Thunderbolt或以太网连接对智能体来说这在两方面很强大首先它让你可以运行更大更强大的模型这些模型无法在单台机器上运行其次它在设备间并行化提示处理这直接加速智能体循环因为模型可以更快地处理工具结果

使用MLX-LM Server 设置分布式推理相当简单使用mlx.launch启动服务器以及包含节点信息和连接类型的主机文件模型自动分片到所有可用设备其他一切都自动工作从macOS 26.2开始我们支持Thunderbolt RDMA 通过Thunderbolt提供低延迟高带宽通信因此使用MLX的分布式推理性能显著提升四节点最高可达三倍速度要了解如何为MLX分布式推理设置你的Mac 请查看我们的议程 "Explore distributed inference and training with MLX" 还记得我们之前的PR摘要演示吗？那是一个简单的读取并报告任务

现在让我们更进一步看看会发生什么当我们要求智能体从零开始编写整个项目然后修复现有项目中的Bug

在这个演示中我将请智能体从零构建一个小型 SwiftUI应用

我从一个空白的Xcode项目开始请智能体为iPad 构建一个绘图应用

它开始了智能体首先查看当前目录以了解现有的项目结构制定实现计划然后开始编写代码使用智能体意味着无需复制或构建项目智能体写好文件然后构建应用修复过程中遇到的任何错误

好了：模型完成了只用了几分钟就创建了应用的第一个版本与此同时我在Xcode中打开了项目并在模拟器中启动应用

让我们看看智能体创建了什么

看起来我们有了一个功能完整的绘图应用对于2分钟内构建出来的东西真的很不错不过使用智能体编程我们可以持续迭代直到我们满意为止例如我更喜欢圆形端点我觉得它们看起来更好让我们请智能体添加它们

智能体会编辑代码并重新编译应用直到编译无错误

让我们测试新版本

我们现在有了圆形端点确实很酷更酷的是这一切都在本地发生模型通过MLX-LM Server 在这台Mac上运行智能体使用了标准开发工具比如xcodebuild来验证和构建其工作成果

最后一个演示让我们看看可以直接集成到你的开发环境中的功能

这里我在Xcode中打开了同一个绘图应用项目让我们将Xcode连接到我们已经运行中的MLX服务器打开设置并导航到 Intelligence标签页点击"添加Chat提供者..." 并选择本地托管提供者将端口设置为8080或我们启动MLX服务器时选择的端口就完成了现在Xcode可以与我们的本地模型通信

我在之前正常工作的应用中引入了一个Bug 现在我们可以请模型修复它

几秒钟内它就识别了Bug 并检查周围的代码最后它写出了修复方案我们现在可以构建并运行应用

这展示了本地运行的智能体如何与你在Xcode中现有的开发工作流集成读取项目文件理解构建错误并进行有针对性的修复本地AI意味着你的代码永远不会离开你的Mac

今天我们展示了在Mac上本地运行智能体AI的完整技术栈从MLX一直到智能体以及Neural Accelerator 连续批处理和分布式推理如何让它更快要开始安装MLX-LM 启动服务器并将你喜欢的智能体指向它我们今天展示的一切都是开源的现在就可以使用感谢观看我很期待看到你用

Mac上的本地智能体AI构建的作品

4:40 - Set up MLX-LM and start the local server

# Step 1: Install MLX-LM
pip install mlx-lm

# Step 2: Start the server
mlx_lm.server --model mlx-community/Qwen-3.5-4B-8bit

# Step 3: Point your agent to the server
curl -X POST \
  http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default_model","messages":[{"role":"user","content":"Hello!"}]}'

5:18 - Configure an agent to use your local MLX server

{
  "$schema": "https://opencode.ai/config.json",
  "model": "mlx/default_model",
  "small_model": "mlx/default_model",
  "provider": {
    "mlx": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "MLX (local)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1"
      },
      "models": {
        "default_model": {
          "name": "Default MLX Model"
        }
      }
    }
  }
}

8:33 - Launch distributed inference with MLX

mlx.launch --hostfile hosts.json \
  --backend jaccl \
  /remote/path/to/mlx_lm.server \
  --model mlx-community/Qwen-3.5-122B-A3B-8bit

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

使用 MLX 在 Mac 上本地运行 AI 智能体

章节

资源

相关视频

WWDC26

WWDC25