MLXによる分散推論と分散トレーニング

MLXによる分散推論と分散トレーニング

MLXを利用すると、複数のMacに機械学習ワークロードを分散させて規模を拡張できます。相互接続の効率化、大規模モデルの推論、リクエストのバッチ処理、分散トレーニングなどの課題に取り組むための方法を確認しましょう。高価なクラウドインフラストラクチャの代わりに数台のMacを使用して、要求の厳しいAIワークロードを処理する方法を学ぶことができます。

関連する章
- 0:00 - はじめに
- 2:09 - 分散通信
- 4:32 - クラスタの設定
- 10:33 - 分散推論およびファインチューニング
- 13:35 - モデル並列処理という戦略
- 15:53 - 分散型ファインチューニング
- 18:34 - CLI、Python、Swift、C++のAPI
- 20:45 - 次のステップ
リソース
関連ビデオ

WWDC26
- MLXを利用したMac上でのローカルのエージェントAIの実行
- MLXを活用したSwiftでの数値計算
WWDC25
- AppleシリコンでのMLXの導入
- MLX：Appleシリコンでの大規模言語モデルの実行
こんにちは Tatianaです MLXチームのリサーチサイエンティストですローカルLLMの分野では目覚ましい進歩が続いていますモデルはどんどん大きくなり驚くべき新機能を次々と備えていますより賢くなり複雑な問題にも対応できるようになっています性能向上に伴い、用途も広がり長いコンテキスト、難しいタスクにより複雑なワークフローもこなせるようになっていますやがて1台のマシンのメモリや計算能力、帯域幅が限界になります WWDC 26の動画「Run local agentic AI on the Mac using MLX」ではローカルでAIエージェントを動かす方法を紹介していますでも複数のデバイスがあればローカルAIをさらに活用できますより大きなLLMを実行したり高速化したりできるのです分散推論とトレーニングによって今日はMLXを使って複数のMacにスケールアウトする方法を詳しく解説します手元にあるハードウェアを活用する方法ですまずコマンドラインインターフェイスでモデルを起動し自分のマシンで動かします次にPython APIで実験的な活用方法を紹介し最後にSwiftでアプリへの直接組み込み方法を説明しますでは始めましょうまずハードウェアとソフトウェアの全体スタックを確認します Appleシリコンで分散ワークロードを実現するためのものです次に4台のM3 Ultraをクラスタにまとめる方法を説明しますマシンを接続するトポロジーの選び方から順を追って解説します高速通信の有効化と分散ジョブの起動も紹介しますクラスタが準備できたらいよいよ楽しい部分です高速かつローカルな分散LLMの推論とファインチューニングです MLXで実行し、1台のMacとのパフォーマンスを比較します MLXがモデルをクラスタ全体にどう分散するかも確認しますほとんどの例はコマンドラインインターフェイスで示しますが最後に分散通信が Python、Swift、C++ APIからも利用できることをお見せしますまずAppleシリコンの分散通信から見ていきましょう高速なデータの送受信にはマシン同士を物理的なリンクで接続する必要がありますインターコネクトと呼ばれるものですさらにトランスポートプロトコルつまりバイトを送り出す仕組みもあるマシンのメモリから別のマシンのメモリに届けるものが必要です macOS 26.2以降では Remote Direct Memory Accessプロトコル略してRDMAが Thunderbolt 5でサポートされるようになりました RDMAはあるマシンのメモリから別のマシンのメモリへ直接データを転送し CPUとOSのオーバーヘッドの多くを回避します Thunderbolt経由のRDMAで高帯域幅低レイテンシな通信が分散ワークロードに必要な形で実現できますただしRDMA単体では2台のマシン間の生のデータ転送しかできません分散プログラムにはより高レベルのものが必要です通信バックエンドデータの送受信のための通信プリミティブを提供し個々のマシン間だけでなくグループ全体で調整するためのものですこの2つの操作は分散トレーニングと推論の基本要素ですここでJACCLの出番です
JACCLはオープンソースの集合通信ライブラリで Appleが開発しました Thunderbolt経由のRDMAを活用し集合通信プリミティブを提供しますマシン間のデータ転送やグループ全体での結果の結合に使えます低レベルのトランスポートを自分で管理する必要はありません機械学習に限らずAppleシリコンで動くあらゆる分散ワークロードに活用できますスタックの最後のピースは機械学習フレームワークです分散推論とトレーニングに通信バックエンドを活用するそれがMLXです MLXはAppleシリコンのために Appleが構築したオープンソースの機械学習ライブラリです低レイテンシな分散通信に JACCLを活用しクラスタ全体の分散ジョブをオーケストレーションするツールも提供します MLXが初めての方は動画「Getting Started with MLX on Appleシリコン」（WWDC25）をご覧ください
これでスタック全体が理解できました全部まとめてクラスタを構築しましょう同じタスクに協力して取り組むマシン群です 4台のM3 Ultraを使いますクラスタのセットアップには Thunderbolt 5ケーブルで接続が必要です接続方法にはさまざまな種類がありますトポロジーは通信時間に直接影響しますまず通信時間を決定する要素を見ていきましょう次に実際にマシンを接続する方法を確認します JACCLがサポートするトポロジーとそれぞれのトレードオフです続いて高速通信のためにマシンで RDMAを有効にする方法を説明します最後にMLXを使ってクラスタで分散ジョブを起動します
通信時間には2つの要素がありますレイテンシと転送時間ですレイテンシは各通信操作にかかる固定コストで送信するデータ量とは無関係です
転送時間はリンクを通じてデータを移動するコストでメッセージサイズに比例してリンクの帯域幅にも依存して増加します
小さなメッセージではデータ移動コストが微小なためレイテンシが支配的になります
大きなメッセージでは逆のトレードオフになります通信がレイテンシ律速か帯域幅律速かによって適したトポロジーが異なります
JACCLはメッシュとリングの 2つをサポートしますフルメッシュでは全マシンが互いに直接接続されるためグループ通信のレイテンシが最小になりますリングでは各ノードが隣接する2つのノードとのみ接続します隣接しないノード間の通信は中間マシンを経由する必要がありレイテンシが増加しますただしリングはマシンごとのケーブルとポート数が少なくより多くのノードへのスケールアウトが容易です各ノードの接続が2つだけなので余分なThunderboltポートを使って隣接ノードへ2本または3本のケーブルを引くことができます（Macの種類による）リンクあたりの帯域幅が向上し転送時間を短縮できますマシンがメッシュ接続されている場合各通信の経路を柔軟にメッシュトポロジーかリングトポロジーに切り替えられます
JACCLの優れた点は最適なトポロジーを自動的に選択することですメッセージサイズと通信操作に応じてレイテンシが重要な場合はメッシュ帯域幅が重要な場合はリングですこの柔軟性を活かすため全M3 Ultraをメッシュ接続しましょう
全M3 Ultraを接続したので次に全マシンで RDMAを有効にしますマシンの設定を開き「RDMA」を検索します
をクリックします
RDMAを有効にして再起動します
完了です MacはThunderbolt 5ケーブルで接続され RDMAが有効になりました次に分散プログラムを起動する方法が必要です
1つの方法はローカルネットワーク経由で行うことです WiFiまたはEthernetが使えますクラスタへSSHアクセスできる任意のマシンからたとえば私の場合はMacBookから各Macに接続してプログラムを起動するとその後は全マシンが直接 Thunderboltリンクで通信します MLXにはこれをすべて代わりにやってくれる起動ヘルパーがあります
MacBookでmlx.launchを実行すればクラスタをオーケストレーションできます実行したい実行可能ファイルとクラスタを記述した JSON hostfileを渡しますすると各ノードにSSH接続し指定したhostfileのホスト名を使ってすべてのマシンで実行可能ファイルを起動しますクラスタを記述するhostfileの形式を見ていきましょうノードごとに1エントリの JSON配列です「ssh」はmlx.launchがマシンに接続するホスト名です「ips」はローカルネットワーク上のマシンのIPアドレスで JACCLがノード間の初期調整に使用します「rdma」はRDMAデバイス名のリストです Thunderboltのピア接続ごとのデバイス名です
手動で作成することもできますが MLXには自動生成してくれるヘルパースクリプト `mlx.distributed_config`もありますホスト名のリストと出力パスを渡します設定に環境変数を埋め込むこともできます起動時にすべてのノードで自動的に設定されますここでは MLX_METAL_FAST_SYNCH=1を設定します GPUとCPU間の同期を高速化するためです分散タスクでは重要な設定で計算は GPUで実行され通信はCPUで行われます --auto-setupフラグを渡すこともできます Thunderboltネットワークを自動的に設定するためです --backendの引数でメッシュかリングかを指定しますメッシュの場合、この例のように --backendにjacclを指定しますリングの場合は jaccl-ringに変更しますこのコマンドを実行してクラスタのhostfileを生成しましょう
まずすべてのホストが SSH経由で到達可能か確認します次に各マシンの Thunderboltポートを確認してどのマシンが物理的にどれと接続されているかを調べトポロジーマップを構築します --auto-setupを渡したので Thunderbolt Bridgeを無効化して全マシンで各ThunderboltリンクをRDMA用に設定します最後にmlx.launchに必要な情報をJSON hostfileに書き出します --auto-setupフラグなしではスクリプトは設定コマンドを出力するだけなので内容を確認してから自分で実行できます
これでクラスタの準備が整いましたいよいよ楽しい部分へ分散言語モデルの推論とファインチューニングです最も手軽な始め方はコマンドラインインターフェイスと MLX LMです MLX LMはMLXをベースにしたオープンソースの Pythonパッケージでコマンドラインツールと言語モデルをローカルで実行するための Python APIを提供します Appleシリコン向けです動画「Explore large language models on Appleシリコン with MLX」を WWDC25でご覧になれば 1台のデバイスで始められます
昨年ご紹介したように 1台のMacでモデルとチャットするにはコマンドラインインターフェイスで mlx_lm.chatを使いますターミナルで実行し使用するモデルを指定しますたとえばQwen 3.6と応答の最大トークン数です内部ではMLX LMが1台のマシンでモデルを読み込んで実行します
同じモデルをクラスタ上でコマンドラインインターフェイスを使って実行するにはコマンドをmlx.launchでラップします MacBookのターミナルで mlx.launchを実行し --hostfileでクラスタの設定ファイルを指定しますダブルダッシュの後にまったく同じ mlx_lm.chatコマンドを渡しますただし各ノード上の実行可能ファイルへのリモートパスを使いますコマンドはほとんど同じで MLX LMがモデルを分割して分散推論を調整してくれます各MacにMLXなどの必要なライブラリをインストールしておく必要があります実行可能ファイルも全マシンからアクセス可能である必要がありますコマンドラインインターフェイス 1行でクラスタ全体にまたがるモデルを実行できます両方を並べて試してみましょう Qwen 3.6と 270億パラメータのモデルで 1台のM3 Ultraと4台でチャットします両方でmlx_lm.chatを既に起動しています左側ではモデルが 1台のM3 Ultraにロードされています右側では4台のマシンに分散されています両方に「Implement a transformer model in MLX.」とプロンプトしてみます
かなり印象的なスピードアップですクラスタは約3倍の速度でトークンを生成します 1台のマシンと比べて Qwen 3.6モデルでご覧のように複数のMacでモデルを実行すると推論速度を大幅に向上できます正確なスピードアップはモデルのサイズとアーキテクチャに依存しますただし時間の改善だけが分散処理を使う理由ではありません 1台のマシンには大きすぎるモデルも存在しますたとえばKimi 2.6は合計 1兆のパラメータを持っています 8ビット量子化を施しても重みだけで約1テラバイトのメモリが必要です 1台のM3 Ultraには収まりませんが 4台なら収めることができますでは実際にどのように重みと計算をマシン間で分割するのでしょうか MLXとMLX LMはパイプライン並列とテンソル並列 2つのアプローチをサポートします
パイプライン並列はモデルを深さ方向に分割しますこの場合、各マシンがレイヤーのグループを担当しデータはマシンを順番に通過します推論の速度向上にはなりません各トークンはそれでもレイヤーグループを順に通過する必要があるからですただし通信がシンプルですマシンはレイヤーグループの境界で活性化値を交換するだけですテンソル並列はモデルを幅方向に分割しますこの場合、各マシンがすべてのレイヤーの一部を担当し全マシンが同じトークンを同時に処理しますレイヤーごとの計算が並列化されるため推論速度が向上しますトレードオフとして通信頻度がはるかに高くなりますすべてのレイヤーとすべてのトークンで発生します低レイテンシが重要となるためこのケースではメッシュトポロジーが重要です全マシンが1ホップで互いに到達できるからです
テンソル並列はMLX LMのデフォルトのシャーディング戦略ですパイプライン並列でモデルを分割するにはコマンドに--pipelineフラグを追加するだけですすべてのモデルがパイプライン並列をサポートするわけではありませんでは1兆パラメータの Kimi 2.6とチャットしてみましょうクラスタ上で
以前と同様にMacBookから mlx.launchを使います hostfileを指定します --pipelineフラグは渡さないのでテンソル並列を使います少し待ちます mlx.launchが全マシンに接続し MLX LMがモデルをロードして分割しますそしてチャットを開始します
モデルがロードされましたモデルにプロンプトします「Implement machine learning architecture for GPT in Python with MLX」
できました。コマンド1つで巨大な1兆パラメータのモデルが手元のMacにまたがってローカルで動き質問に答えています
MLXとMLX LMを使えば言語モデルの推論だけでなく手元のハードウェアでモデルのファインチューニングもできます高速で効率的、完全プライベートデータがマシンを離れることはありませんまず1台のMacから始めてクラスタへのスケールを確認します 1台のマシンでファインチューニングやトレーニングする場合トレーニングデータをバッチに分割します複数のサンプルのセットです各バッチに対して Macは勾配を計算しモデルの重みを更新しますこのプロセスをトレーニングデータセットに対して1回以上繰り返しますモデルが目標の品質に達するまでですトレーニングデータを速く処理するほどファインチューニングの完了が早まります複数のマシンでこれをどう速くできるでしょうかアイデアはシンプルですすべてのMacでモデルを複製します各マシンは異なるバッチのデータを受け取りローカルで勾配を計算します次に勾配を平均化してモデルの更新に全バッチの情報を使いますモデルは複製されるためこれをデータ並列トレーニングと呼びますデータは各マシンで並列に処理されますこれがスピードアップの源です N台のマシンでデータを N倍まで高速に処理できます素晴らしいですね MLX LMでデータ並列を使う方法を見てみましょう以前と同様、1台のデバイスとの唯一の違いはジョブをmlx.launchで起動することです MacBookからリモートマシン上の mlx_lm.loraへのパスを指定しますデータシャーディングはMLX LMが処理しコマンドはほぼ同じです --batch-sizeをデバイス数でスケールします各マシンが引き続き以前と同じサンプル数を各ステップで処理します 90億パラメータのQwen 3.5をファインチューニングしてみましょう 1台のマシンとクラスタでモデルが1秒あたりに処理するトークン数を比較します左側では1台のデバイスでファインチューニングを起動し右側ではクラスタで mlx.launchとhostfileを使ってリモートマシン上の mlx_lm.loraへのパスを指定しますまずデータとモデルを読み込みトレーニングが開始されます 1台のM3 Ultraは約180トークン毎秒を処理しますクラスタでは約600トークン毎秒で処理できファインチューニングで 3倍以上の高速化になります MLXを使えばデバイスをローカルのトレーニングクラスタに変えられますクラウドに移行せずに効率的なファインチューニングが可能ですこれまでコマンドラインインターフェイスで分散推論と MLX LM内のファインチューニングを行ってきましたただしMLXはより細かな制御を提供しますシャーディングと分散操作に対して柔軟なPython、Swift、C++ APIを通じてです PythonとC++でモデルの実験が可能になり Swiftでモデルをアプリに組み込むこともできます例を見てみましょう Python APIとMLX LMで分散推論を実行するにはまず通信用の分散グループを初期化します次に使用する並列処理の種類を定義しますたとえばテンソル並列です最後にsharded_load関数でモデルをシャードしますその後は1台のデバイスとまったく同じようにモデルを使えます MLX LMがすべての分散通信を内部で処理します
モデルとそのシャーディングをより細かく制御するには MLX自体の低レベルプリミティブを使用できますたとえばシンプルなLinearレイヤーを定義した後 shard_linear関数でテンソル並列としてシャードできます all reduceなどの基本的な分散操作も制御できます PythonやSwift、C++でJACCL経由で分散グループを初期化した後テンソルに対して全Macにまたがる集合分散和を実行します対応するMLXプリミティブを使用しますセッションの最初に述べたように JACCLは単体でも利用できますあらゆるアプリケーションで活用できます分散通信を必要とする ML以外のアプリケーションでも JACCLはMLXなしでビルドでき C++ APIを提供します通信プリミティブとして JACCLグループを初期化した後全Macにまたがる集合分散和を再び実行しますテンソルに対してですが今回はMLXではなくJACCL直接です高レベルと低レベルの両方のAPIがわかりました MLXとJACCLを使った分散推論とトレーニングの MLXで高度な分散ワークフローを構築する準備ができました
このセッションを通じて完全なスタックを見てきました分散トレーニングと推論を Appleシリコンで実現する Thunderbolt経由のRDMAから MLXとMLX LMに至るまでです 1台から複数デバイスへのスケールがいかに簡単かをお見せしましたそのメリットとして推論の高速化、1兆パラメータモデルの実行能力そして高速なファインチューニングがあります 1台のデバイスのコードに最小限の変更を加えるだけですコマンドラインインターフェイス、 Python、Swift、C++ APIをサポートします分散クラスタを使えばMLXで動くローカルAIエージェントを実行できます高速でプライベート自分のハードウェアで動作します詳しくはWWDC 2026の動画「Run local agentic AI on the Mac using MLX」をご覧ください高度な分散機能についてさらに詳しく知りたい場合はカスタム並列戦略やトレーニングループを含むドキュメントをご確認ください MLX LMの組み込みサーバーを使ってモデルを分散配信することもできます Appleシリコン上のMLXで何を作るか楽しみにしています

8:31 - Hostfile format for a 4-node MLX cluster

[
  {
    "ssh": "m3-ultra-0",
    "ips": ["192.168.1.10"],
    "rdma": [null, "rdma_en5", "rdma_en4", "rdma_en3"]
  },
  {
    "ssh": "m3-ultra-1",
    "ips": ["192.168.1.11"],
    "rdma": ["rdma_en5", null, "rdma_en4", "rdma_en3"]
  },
  {
    "ssh": "m3-ultra-2",
    "ips": ["192.168.1.12"],
    "rdma": ["rdma_en5", "rdma_en4", null, "rdma_en3"]
  },
  {
    "ssh": "m3-ultra-3",
    "ips": ["192.168.1.13"],
    "rdma": ["rdma_en5", "rdma_en4", "rdma_en3", null]
  }
]

8:56 - Generate the cluster hostfile with mlx.distributed_config

mlx.distributed_config \
    --hosts m3-ultra-0,m3-ultra-1,m3-ultra-2,m3-ultra-3 \
    --output "m3-ultra-jaccl.json" \
    --env MLX_METAL_FAST_SYNCH=1 \
    --auto-setup \
    --backend jaccl

11:04 - Run distributed LLM inference with mlx_lm.chat

# Single-device LLM inference
mlx_lm.chat --model "Qwen/Qwen3.6-27B" --max-tokens 2048

# Distributed LLM inference across the cluster
mlx.launch --hostfile "m3-ultra-jaccl.json" -- \
    /remote/path/to/mlx_lm.chat --model "Qwen/Qwen3.6-27B" --max-tokens 2048

15:03 - Run distributed inference with pipeline parallelism

# Tensor parallelism (default)
mlx.launch --hostfile "m3-ultra-jaccl.json" -- \
    /remote/path/to/mlx_lm.chat --model "moonshotai/Kimi-K2.6" \
                                 --max-tokens 2048

# Pipeline parallelism — append --pipeline flag
mlx.launch --hostfile "m3-ultra-jaccl.json" -- \
    /remote/path/to/mlx_lm.chat --model "moonshotai/Kimi-K2.6" \
                                 --max-tokens 2048 \
                                 --pipeline

17:18 - Run distributed fine-tuning with mlx_lm.lora

# Single-device fine-tuning
mlx_lm.lora --model "Qwen/Qwen3.5-9B" \
             --data "mlx-community/wikisql" \
             --train --batch-size 4

# Distributed fine-tuning (scale --batch-size by number of devices)
mlx.launch --hostfile "hostfile.json" -- \
    /remote/path/to/mlx_lm.lora --model "Qwen/Qwen3.5-9B" \
                                  --data "mlx-community/wikisql" \
                                  --train --batch-size 16

19:01 - Distributed inference with the MLX LM Python API

import mlx.core as mx
from mlx_lm import stream_generate
from mlx_lm.utils import sharded_load

# Initialise distributed backend
group = mx.distributed.init(strict=True, backend="jaccl")
# Define parallelism
tensor_group, pipeline_group = group, None

# Shard the model
model, tokenizer = sharded_load("moonshotai/Kimi-K2.6", pipeline_group, tensor_group)
for response in stream_generate(model, tokenizer, prompt, max_tokens=1024):
    if group.rank() == 0:
        print(response.text, end="", flush=True)

19:31 - Shard a layer with the MLX Python API

import mlx.core as mx
import mlx.nn as nn

# Initialise distributed backend
group = mx.distributed.init(strict=True, backend="jaccl")

# Define layer and shard it column-wise
layer = nn.Linear(1024, 1024)
sharded_layer = nn.layers.distributed.shard_linear(
    layer, strategy="all-to-sharded", group=group
)
data = mx.random.normal((1, 1, 1024))
output = sharded_layer(data)
mx.eval(output)

19:47 - All-reduce across devices in Python, Swift, and C++

# Python
import mlx.core as mx
world = mx.distributed.init(strict=True, backend="jaccl")
data = mx.full((4,), float(world.rank()), dtype=mx.float32)
result = mx.distributed.all_sum(data, group=world)
mx.eval(result)

# Swift
let group = try DistributedGroup(strict: .ring)
let data = rank == 0
    ? MLXArray(converting: [1.0, 2.0, 3.0])
    : MLXArray(converting: [5.0, 6.0, 7.0])
let result = try group.allSum(data)

// C++
namespace mx = mlx::core;
auto world = mx::distributed::init(/* strict */ true, "jaccl");
mx::array data = mx::full({4}, static_cast<float>(world.rank()), mx::float32);
mx::array result = mx::distributed::all_sum(data, world);
mx::eval(result);

20:06 - Standalone distributed sum with the JACCL C++ API

#include <jaccl/jaccl.h>
#include <iostream>

int main() {
    // Initialize JACCL group
    auto group = jaccl::init();
    std::cout << "Rank " << group->rank() << " of " << group->size() << std::endl;
    // Perform all-reduce sum
    float data[10] = {1.0f, 2.0f, 3.0f, 4.0f, 5.0f, 6.0f, 7.0f, 8.0f, 9.0f, 10.0f};
    float output[10];
    group->all_sum(data, output, sizeof(data), jaccl::Float32);
    std::cout << "Result: " << output[0] << std::endl;
    return 0;
}

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース

関連ビデオ

WWDC26

WWDC25