MLX를 사용하여 Mac에서 로컬 에이전틱 AI 실행하기

MLX를 사용하여 Mac에서 로컬 에이전틱 AI 실행하기

개인정보 보호, 짧은 지연 시간, 오프라인 접근으로 AI 에이전트를 로컬로 실행하세요. MLX의 혁신 기술과 Mac 하드웨어가 어떻게 강력한 에이전틱 워크플로를 완전한 온디바이스 방식으로 구현할 수 있는지 자세히 알아보세요. OpenCode와 같은 코드 에이전트와 이들이 Xcode에 통합되는 방식을 살펴보고, 여러 Mac 확장을 위한 다양한 기법을 알아보며, Mac을 벗어나지 않고 도구를 원활하게 통합하는 방법을 확인해 보세요.

챕터
- 0:00 - 서론
- 0:32 - 채팅과 에이전틱 루프
- 2:42 - 로컬 에이전틱 AI 스택
- 4:36 - 나만의 에이전트 설정하기
- 5:39 - 에이전트 처리 속도 높이기
- 6:53 - 동시성 및 분산 추론
- 9:20 - 다른 사례 보기
- 13:01 - 다음 단계
리소스
관련 비디오

WWDC26
- MLX로 Swift에서 수치 컴퓨팅 살펴보기
- MLX를 사용한 분산 추론 및 학습 살펴보기
WWDC25
- Apple Silicon용 MLX 사용하기
- MLX를 사용하여 Apple Silicon에서 대규모 언어 모델 탐색하기
안녕하세요, 저는 MLX 팀의 엔지니어 Angelos입니다 오늘은 MLX를 활용해 Mac에서 에이전트형 AI 워크플로를 구축하고 실행하는 방법을 소개하겠습니다.
클라우드도, API 키도 필요 없이 하드웨어만으로 모든 작업이 처리됩니다 지난 한 해 동안 AI 에이전트는 연구 프로토타입에서 일상적인 생산성 도구로 발전했습니다 에이전트에 대해 이야기하기 전에 이전에는 어떤 방식이었는지 살펴보겠습니다
여러분에게 익숙한 채팅 경험입니다 언어 모델에 프롬프트를 보내면 모델이 응답을 돌려보냅니다 그 응답을 바탕으로 명령을 실행하거나 파일을 확인하거나 오류를 수정하는 건 여러분의 몫이었습니다 하지만 이제는 에이전트와 대화합니다 에이전트가 모델과 대화해 무엇을 할지 결정합니다 그런 다음 도구를 호출해 실제로 작업을 수행하죠 명령을 실행하거나 파일을 읽고 API를 호출합니다 결과를 관찰한 후 다시 모델로 돌아가 다음 단계를 결정합니다 사용자에서 에이전트로 에이전트에서 모델로 에이전트에서 도구로 이것이 에이전틱 루프입니다 작업이 완료될 때까지 이 사이클이 반복됩니다 Apple Silicon에서 특히 흥미로운 점은 전체 루프를 로컬에서 실행할 수 있다는 것입니다
데이터는 기기에 머물고 AI는 언제 어디서나 사용 가능하며 사용 비용도 없습니다 실제로 어떤 모습인지 바로 보여드리겠습니다
여기 Mac에서 로컬로 실행 중인 에이전트가 있습니다 화면에서 설정을 볼 수 있습니다 왼쪽에는 MLX가 모델을 실행하고 오른쪽에는 제가 사용하는 OpenCode 에이전트가 있습니다
MLX 저장소에서 최근 풀 리퀘스트를 가져오도록 요청했습니다 변경 사항을 요약하고 주의가 필요한 항목을 파악하도록요 모델이 요청을 분석하고 GitHub CLI로 PR 데이터를 가져옵니다 diff를 읽고 간결한 요약을 작성합니다 이 모든 것이 로컬에서 이루어집니다 모델은 제 하드웨어에서 실행되고 git 명령만 네트워크에 접근합니다 이 영상을 마치고 나면 해야 할 일이 많겠네요 가능성을 확인하셨으니 오늘 어떻게 진행할지 안내해 드리겠습니다 먼저 로컬 에이전틱 AI 스택을 소개하겠습니다 이 모든 것을 가능하게 하는 네 가지 레이어입니다 기반이 되는 MLX부터 에이전트까지 모두요 그런 다음 자신만의 로컬 에이전트를 단계별로 설정하는 방법을 보여드립니다 그 후 MLX가 하드웨어를 최대한 활용하는 방법을 살펴보겠습니다 에이전트를 빠르게 만들기 위해서요 마지막으로 더 많은 라이브 데모를 진행하겠습니다 SwiftUI 앱을 처음부터 빌드하고 Xcode에서 버그를 수정하는 것도 포함됩니다 스택부터 시작해 보겠습니다
Mac에서 로컬 에이전틱 AI를 구동하는 스택은 네 개의 레이어로 구성됩니다 아래부터 시작해서 각 레이어를 안내해 드리겠습니다 맨 아래에는 MLX가 있습니다 Apple Silicon을 위해 설계된 오픈소스 배열 프레임워크입니다 저수준 연산, Metal 가속, 메모리 관리를 모두 처리합니다 이것이 모든 것이 구축되는 기반입니다 한 레이어 위에는 언어 모델 레이어가 있습니다 MLX-LM은 대규모 언어 모델을 로드, 실행, 양자화하는 데 필요한 모든 것을 제공합니다 파인튜닝도 가능합니다 HuggingFace에서 수천 가지 모델을 지원하고 CLI 도구와 Python API를 모두 제공합니다 작년 세션을 보셨다면 이 내용을 심층적으로 다뤘습니다 하지만 에이전트를 서빙하려면 더 많은 것이 필요합니다 표준 API를 갖춘 영구적인 서버가 필요하죠 바로 MLX-LM Server가 등장하는 곳입니다 OpenAI 호환 HTTP 서버로 로컬 모델을 표준 API를 통해 노출합니다 구조적인 도구 호출을 지원하여 모델이 함수를 안정적으로 호출할 수 있고 복잡한 문제를 분석할 수 있는 추론 모델도 지원합니다 응답하기 전에 단계별로 분석하죠 모든 클라우드 LLM API를 대체할 수 있습니다 스택 최상단에는 에이전트 자체가 있습니다 어떤 프레임워크든 가능합니다 OpenAI 채팅 완료 프로토콜을 지원하는 도구라면요 Xcode, OpenCode, Pi 에이전트, 커스텀 스크립트 등 무엇이든 가능합니다 MLX-LM Server가 표준 인터페이스를 제공하기 때문에 모든 에이전트 프레임워크가 바로 작동합니다 이 스택을 활용하는 것은 저희만이 아닙니다 여러 인기 앱과 도구가 MLX와 MLX-LM을 기반으로 합니다 Ollama, LM Studio, vLLM이 가장 인기 있는 몇 가지입니다 생태계는 넓고 계속 성장하고 있으며 이 도구들을 사용하고 있다면 이미 MLX 위에서 실행 중일 가능성이 높습니다 이것이 스택입니다 이제 직접 설정하는 방법을 보여드리겠습니다 세 가지 단계만으로 처음부터 완전한 로컬 에이전틱 워크플로를 구축할 수 있습니다 1단계: MLX-LM을 설치하세요 pip install 하나로 필요한 모든 것을 얻을 수 있습니다 2단계: 서버를 시작하세요 도구 호출을 지원하는 모델로 mlx_lm.server를 실행하세요 작은 모델부터 시작해서 설정을 테스트하는 것이 좋습니다 서버가 시작되고 모델이 로드되면 로컬 호스트에서 요청을 받을 준비가 됩니다 3단계: 에이전트를 로컬 서버로 연결하세요 대부분의 에이전트 프레임워크에서 base URL을 로컬 서버 주소로 설정하기만 하면 완료됩니다 에이전트는 알지 못하고 신경 쓰지도 않습니다 모델이 클라우드 대신 Mac에서 실행된다는 것을요
구체적인 예를 보여드리겠습니다 OpenCode의 구성 파일입니다 로컬 프로바이더를 정의합니다 특히 URL을 로컬 호스트로 설정하고 서버가 기대하는 모델 이름을 설정합니다 또한 OpenCode에게 이 로컬 모델을 모든 것에 사용하도록 지정합니다 이것으로 끝입니다 이제 모든 상호작용이 로컬 모델을 통해 실행됩니다
이제 에이전트가 MLX와 대화하게 되었으니 MLX가 하드웨어를 최대한 활용하는 방법을 살펴보겠습니다 그리고 로컬에서 에이전트를 실행할 때의 주요 과제들도 다루겠습니다
첫 번째 과제는 프롬프트 처리입니다 에이전틱 워크플로에서 모델이 도구 출력을 받을 때마다 새로운 컨텍스트를 모두 처리해야 다음 단계를 추론할 수 있습니다 이 과정이 에이전틱 루프 전체에서 반복되며 빠르게 누적됩니다 에이전틱 세션은 보통 수십만 개의 토큰으로 구성되며 대부분은 생성된 토큰이 아닙니다
M5 칩에는 전용 Neural Accelerator가 도입되었으며 MLX는 바로 이런 작업에 이를 활용할 수 있습니다 특히 Neural Accelerator는 행렬 곱셈을 M4 대비 M5에서 4배 빠르게 처리합니다 MLX의 특화된 곱셈 및 어텐션 커널과 결합하면 이것이 프롬프트 처리 속도 향상으로 거의 그대로 이어집니다
프롬프트 처리 시간을 단축하면 에이전트가 코드베이스를 읽거나 도구 결과를 처리하는 속도가 거의 4배 빨라집니다 가장 좋은 점은요? Neural Accelerator를 활용하는 데 별도의 인자나 코드 변경이 필요하지 않습니다 MLX가 사용 가능한 하드웨어에 맞는 최적의 커널을 자동으로 선택합니다
이제 두 번째 과제인 동시성에 대해 이야기해 보겠습니다 실제로 에이전트는 혼자 작업하는 경우가 드뭅니다 일반적인 패턴은 에이전트가 여러 서브에이전트를 생성하고 각각이 문제의 다른 부분을 병렬로 처리하는 것입니다 하나는 문서를 읽고 다른 하나는 코드를 검색하며 세 번째는 테스트를 작성하는 이 모든 것이 동시에 진행됩니다 즉 여러 요청이 로컬 모델에 동시에 도달한다는 의미입니다 MLX-LM Server는 연속 배칭으로 이를 처리합니다
요청을 하나씩 처리하는 대신 들어오는 요청을 동적으로 배치로 묶어 GPU에서 함께 처리합니다 새로운 요청은 진행 중인 배치에 합류할 수 있어 현재 배치가 끝날 때까지 기다릴 필요가 없습니다 결과적으로 서브에이전트들이 큐에서 대기하지 않습니다 모두 동시에 서비스를 받으며 전체 에이전틱 워크플로가 계속 진행됩니다 마지막으로 세 번째 과제는 모델 크기입니다 경우에 따라 512GB RAM이 있는 경우에도 단일 기기로는 모델이 너무 커서 메모리에 맞지 않을 수 있습니다 가장 최근의 DeepSeek 모델의 경우 무려 1조 6천억 개의 파라미터를 가지고 있으며 가중치만 저장하는 데도 800GB 이상의 메모리가 필요합니다 MLX의 분산 지원을 사용하면 여러 Mac에 모델을 분산할 수 있습니다 Thunderbolt 또는 이더넷으로 연결하면 됩니다 에이전트에게 이는 두 가지 면에서 강력합니다 첫째, 훨씬 더 크고 성능이 뛰어난 모델을 실행할 수 있습니다 단일 기기에는 맞지 않는 모델도요 둘째, 여러 기기에서 프롬프트 처리를 병렬화할 수 있어 에이전틱 루프를 직접적으로 가속합니다 모델이 도구 결과를 더 빠르게 처리할 수 있으니까요
MLX-LM Server를 사용한 분산 추론 설정은 비교적 간단합니다 mlx.launch를 사용해 서버를 실행하고 노드 정보와 연결 유형이 담긴 hostfile을 지정하면 됩니다 모델이 사용 가능한 모든 기기에 자동으로 분산되며 나머지는 자동으로 작동합니다 macOS 26.2부터 Thunderbolt RDMA를 지원합니다 Thunderbolt를 통해 저지연, 고대역폭 통신을 제공하죠 그 결과 MLX를 사용한 분산 추론이 크게 빨라졌습니다 노드 4개로 최대 3배까지요 MLX를 사용한 분산 추론을 위해 Mac을 설정하는 방법을 알아보려면 "Explore distributed inference and training with MLX" 세션을 확인하세요 앞서 보여드린 PR 요약 데모 기억하시나요?
그것은 단순한 읽기 및 보고 작업이었습니다 이제 더 나아가서 어떤 일이 일어나는지 살펴보겠습니다 에이전트에게 전체 프로젝트를 처음부터 작성하도록 요청하고 기존 프로젝트의 버그를 수정하게 해보겠습니다
이 데모에서 저는 에이전트에게 작은 SwiftUI 앱을 처음부터 빌드하도록 요청할 것입니다
빈 Xcode 프로젝트에서 시작하여 에이전트에게 iPad용 드로잉 앱을 만들도록 요청합니다
자, 시작됩니다 에이전트가 먼저 현재 디렉토리를 살펴보고 기존 프로젝트 구조를 파악합니다 구현을 안내할 계획을 세우고 코드 작성을 시작합니다 에이전트를 사용하면 복사하거나 프로젝트를 빌드할 필요도 없습니다 에이전트가 파일을 작성하고 앱을 빌드합니다 발생하는 오류를 즉시 수정하면서요
자, 이제 완성되었습니다 앱의 첫 번째 버전을 만드는 데 불과 몇 분밖에 걸리지 않았습니다 동시에 Xcode에서 프로젝트를 열고 시뮬레이터에서 앱을 실행해 보겠습니다
에이전트가 만든 것을 살펴봅시다
완전히 작동하는 드로잉 앱이 완성된 것 같습니다 2분 만에 만들어진 것치고는 정말 훌륭하네요 하지만 에이전틱 코딩을 사용하면 계속 반복할 수 있습니다 원하는 결과가 나올 때까지요 예를 들어 저는 둥근 끝 모양이 더 좋습니다 훨씬 더 보기 좋으니까요 에이전트에게 추가해 달라고 요청해 보겠습니다
에이전트가 코드를 편집하고 앱을 다시 컴파일합니다 오류 없이 컴파일될 때까지요
새 버전을 테스트해 보겠습니다
이제 둥근 끝 모양이 생겼습니다 정말 멋지네요 이 모든 것이 로컬에서 이루어졌다는 점이 더욱 놀랍습니다 모델이 이 Mac의 MLX-LM server를 통해 실행되었고 에이전트는 표준 개발 도구를 사용했습니다 xcodebuild로 작업을 확인하고 빌드했죠
마지막 데모로 개발 환경과 직접 통합되는 것을 살펴보겠습니다 개발 환경과 직접 통합되는 것을요
여기 Xcode에서 같은 드로잉 앱 프로젝트가 열려 있습니다 Xcode를 이미 실행 중인 MLX 서버에 연결해 보겠습니다 설정을 열고 Intelligence 탭으로 이동합니다 Add Chat Provider...를 클릭하고 Locally Hosted 프로바이더를 선택합니다 포트를 8080으로 설정하거나 MLX 서버 실행 시 선택한 포트로 설정합니다 이것으로 완료입니다 이제 Xcode가 로컬 모델과 통신할 수 있습니다
이전에 잘 작동하던 앱에 버그를 추가했습니다 이제 모델에게 수정을 요청해 보겠습니다
몇 초 만에 버그를 파악하고 주변 코드를 살펴봅니다 마지막으로 수정 코드를 작성하고 앱을 빌드하고 실행할 수 있습니다
이것은 로컬로 실행되는 에이전트가 Xcode의 기존 개발 워크플로와 통합될 수 있음을 보여줍니다 프로젝트 파일을 읽고 빌드 오류를 이해하며 정확한 수정을 합니다 로컬 AI를 사용하면 코드가 Mac을 떠나지 않습니다 오늘 Mac에서 로컬로 에이전틱 AI를 실행하는 전체 스택을 보여드렸습니다 MLX에서 에이전트까지 모두요 그리고 Neural Accelerator, 연속 배칭 분산 추론이 어떻게 빠르게 만드는지도요 시작하려면 MLX-LM을 설치하고 서버를 실행하세요 그리고 좋아하는 에이전트를 연결하면 됩니다 오늘 보여드린 모든 것은 오픈소스로 지금 바로 사용 가능합니다 시청해 주셔서 감사합니다 여러분이 무엇을 만들지 기대됩니다 Mac에서 로컬 에이전틱 AI로요

4:40 - Set up MLX-LM and start the local server

# Step 1: Install MLX-LM
pip install mlx-lm

# Step 2: Start the server
mlx_lm.server --model mlx-community/Qwen-3.5-4B-8bit

# Step 3: Point your agent to the server
curl -X POST \
  http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default_model","messages":[{"role":"user","content":"Hello!"}]}'

5:18 - Configure an agent to use your local MLX server

{
  "$schema": "https://opencode.ai/config.json",
  "model": "mlx/default_model",
  "small_model": "mlx/default_model",
  "provider": {
    "mlx": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "MLX (local)",
      "options": {
        "baseURL": "http://127.0.0.1:8080/v1"
      },
      "models": {
        "default_model": {
          "name": "Default MLX Model"
        }
      }
    }
  }
}

8:33 - Launch distributed inference with MLX

mlx.launch --hostfile hosts.json \
  --backend jaccl \
  /remote/path/to/mlx_lm.server \
  --model mlx-community/Qwen-3.5-122B-A3B-8bit

시작하기 탐색

알림 받기

플랫폼 탐색

피처링

기술 탐색

피처링

커뮤니티 탐색

피처링

문서 탐색

릴리즈 노트

다운로드 탐색

피처링

지원 탐색

피처링

빠른 링크

챕터

리소스

관련 비디오

WWDC26

WWDC25