MLX：Appleシリコンでの大規模言語モデルの実行

MLX：Appleシリコンでの大規模言語モデルの実行

MLX LMは、Appleシリコン上での大規模言語モデルによる処理を簡単かつ効率的に行えるように設計されています。Mac上で最先端の大規模言語モデルのファインチューニングと推論を実行する方法、およびSwiftで開発したアプリやプロジェクトにそれらモデルをシームレスに統合する方法について説明します。

関連する章
- 0:00 - イントロダクション
- 3:07 - MLX LMの概要
- 3:51 - テキストの生成
- 8:42 - 量子化
- 11:39 - ファインチューニング
- 17:02 - MLXSwiftでのLLM
リソース
関連ビデオ

WWDC25
- AppleシリコンでのMLXの導入
こんにちは MLXチームのエンジニア Angelosですここでは Appleシリコンでの大規模言語モデルの実行に適したMLXについて説明します MLXでは推論や大規模モデルのファインチューニングを Macから直接実行できますいずれもCLIアプリを使うか PythonまたはSwiftから実行できます MLXについて簡単に説明すると Apple シリコンで機械学習を実行するための専用のオープンソースライブラリです Metalを利用してGPUを高速化しさらにユニファイドメモリを活用して CPUとGPUの処理で同じデータを同時に利用できるようにします MLXはどの言語でも使用できます Python、Swift、C++、Cの APIが用意されています詳しくは「Get Started with MLX for Apple Silicon」セッションをご覧ください Appleシリコンで大規模言語モデルを実行する場合 MLXのパワフルな新機能により Macで1行のコマンドを入力するだけで最先端の最新モデルを実行できます DeepSeek AIの最新モデルを読み込んでみましょう 6,770億ものパラメータを持つモデルです
4.5bpwに量子化した場合でもモデルの重みだけで約380GBのメモリが必要になりますこれに対応するためここでは512GBものユニファイドメモリを搭載した M3 Ultraを使用します一般向けでは類を見ない容量ですモデルが読み込まれました操作を開始できます例えばこのように質問できます「アメリカで一番深い湖はどこですか」
コードを記述させることもできます
ご覧のように MLXならリアルタイムでスムーズにやり取りができ読むより速い速度でコードが生成されます膨大な数のパラメータを含むモデルでも Macのデスクトップ上でローカルに実行できます何ができるかわかったところで次はMLXを使ってこのパワフルなモデルを Mac上で実行する方法を説明しますまず MLX LMについて説明します Pythonライブラリと一連のコマンドラインアプリがあり大規模言語モデルの要件をすべて満たし幅広い用途に対応した堅牢性と汎用性に優れたソリューションです
次に MLX LMを使用したテキスト生成について説明します Pythonまたはターミナルからテキストを簡単に生成する方法をご紹介します次に Hugging Faceからモデルをダウンロードして量子化しデバイスでの推論を高速化する方法をお見せします
MLXでできることは推論だけではありませんそこで次に MLX LMを使い言語モデルを独自データでファインチューニングします具体的には低ランクアダプタのトレーニングを行いますこれをモデルに取り込むことでデプロイが容易になり推論を高速化できます最後に説明するのは SwiftからMLXを利用する方法ですわずか数行のコードで大規模言語モデルを Swiftアプリに組み込むことができます
MLXで言語モデルを使用する最も簡単な方法は MLX LMを使うことです MLX LMはMLXをベースとした Pythonパッケージで大規模言語モデルの実行やテストを目的としていますモデルのファインチューニングやテキスト生成用のコマンドラインツールが用意されておりコードを記述する必要はありません詳細な制御が必要な場合は Python APIを使用して生成やトレーニングプロセスを必要に応じてカスタマイズできますまた Hugging Faceと緊密に統合されており何千ものモデルをインターネットから簡単にダウンロードしたり独自のモデルをアップロードして共有したりできます
始めるのは簡単です pip install mlx-lmを実行するだけです
では言語モデルの最も一般的なユースケースを見ていきましょうテキスト生成です
こちらはターミナルから言語モデルを使ってテキストを生成するコマンドラインツールでコードの記述は不要です Hugging Faceのモデルまたはローカルパスとテキストプロンプトを指定すればあとは自動的に処理されます必要に応じてモデルをダウンロードしプロンプトを実行して生成された応答を出力します説明だけでなく実際にこのコマンドを実行してみましょう
ほんの数秒で Swiftでクイックソートを実装できます
モデルの動作を調整するにはフラグを追加してサンプリング温度、top-p、最大トークン数などを指定します標準的なテキスト生成の場合と同様です使用できるオプションを確認するにはいつでも mlx_lm.generate --help を実行できますアイデアのプロトタイピングやコードの生成モデルでできることを確かめたい場合もここから始めるのが最も簡単です mlx_lm.generatを使えば簡単にコマンドラインからテキストを生成できることをお見せしましたしかし MLX LMの本当の強みはターミナルツールに限定されないところですまたクリーンで柔軟なPython APIがあり詳細な制御が必要な場合や大規模なワークフローに生成機能を組み込む必要がある場合に適していますそれでは同様のテキスト生成を Pythonのコードを数行記述して実行してみましょう
まず loadとgenerateの2つのユーティリティをインポートします loadは名前のとおりモデルの読み込み関連の処理を行いますローカルディスクまたは Hugging Faceから直接指定されたモデルを取得し modelオブジェクトと tokenizerを設定します次に generateを呼び出しますこの関数はトークン生成ループを実行しテキスト出力を返しますこの出力をPythonで処理したりログに記録したり別のシステムに入力したりできます
このloadとgenerateの 2つのステップだけで CLIと同じ機能を実現できますしかも Pythonなら柔軟性があり細かな制御ができます MLX LMのPython APIの強力な長所をもう1つ紹介します loadで取得したモデルは固定のインターフェイスでのみやり取りできる不透明なオブジェクトではありません完全に構造化されたMLXニューラルネットワークなので内容を調べたりアーキテクチャを確認したり変更したりできます簡単なデモをお見せしましょう
まずprintでモデルを構成するレイヤーの一覧を出力します
transformerスタックの内訳がレイヤーごとに表示されますモデルのパラメータも確認できますこのモデルが学習した重みやバイアスです
ネットワークの特定の部分例えば最初のレイヤーの self-attentionモジュールを調べたい場合はそれも可能です
このような透明性の高さはデバッグや学習に加えレイヤーの入れ替え、カスタムのファインチューニングルーチン、低レベルモデルの手術などをテストする場合にも役立ちます
1つプロンプトでテキストを生成する方法を見てきましたでは会話を続けたい場合はどうでしょうかつまり前のプロンプトに基づいて新しいプロンプトを生成し複数回にわたって応答を生成する場合ですここでキーバリューキャッシュ（KVキャッシュ）が出てきます言語モデルではアテンションメカニズムを使って入力トークンを処理し生成ではそれまでに生成されたすべてのトークンに対するアテンションを繰り返し計算します長いプロンプトやマルチターンの場合負荷が高くなる可能性があります KVキャッシュはこれを解決するためキーと値の形で前段階の中間結果を保存します
すべてをゼロから計算し直すのではなくこのキャッシュを再利用することで時間と計算処理を節約します MLX LMでは KVキャッシュを簡単に使用できます
先ほどのPythonの例で続けましょう KVキャッシュを明示的に作成し複数回の生成に再利用できるようにします
まず make_prompt_cache関数で cacheオブジェクトを作成しますこれは履歴を編集したり後で使うために保存したり会話間でシームレスに置き換えたりする場合に利用できます
これをgenerate関数に渡します新しいトークンが生成されるとキャッシュが更新されます各呼び出しは前回終了時点から続行されコンテキストが維持されますこれはチャットボットやバーチャルアシスタントなど履歴の追跡管理が必要なインタラクティブなアプリの構築に役立ちます
ではここでモデルの量子化の話をしましょうテキストを生成しモデルをインタラクティブに操作する方法を見てきましたしかし実際には機能だけでなく効率性も重要になりますモデルは通常 float32やfloat16などトレーニングされた場合と同じ精度でリリースされます精度は確保されますが大規模で低速のため小型デバイスでは問題が生じますそこで量子化の出番です
量子化により Int8や4ビットまでモデルの精度を落とすとメモリの使用量を減らして推論を高速化でき多くの場合品質にはほとんど影響しませんしかし通常は量子化には別のツールや変換用スクリプトが必要で互換性の問題が伴います量子化が組み込まれているMLXならはるかに簡単です様々なレベルにモデルを圧縮してすぐに推論やトレーニングに使用でき特別な設定は必要ありません実際に見てみましょう
MLXで量子化するまたはモデルを変換するには mlx_lm.convertコマンドを使用しますこのコマンドにより Hugging Faceからモデルをダウンロードし別の精度に変換してローカルに保存する処理が1ステップで実行されますこの例ではオリジナルの 16ビットのMistralモデルを取得し 4bpwに量子化します
その結果モデルのサイズが大幅に小さくなり実行速度が速くメモリ使用量が少なくなります変換されたモデルは指定したフォルダに保存され同じMLX LMツール使ってすぐに推論やトレーニングを実行できます
量子化したモデルを他の人と共有するにはリポジトリ名を指定すれば簡単にHugging Faceにアップロードできます速度の最適化や容量の節約コミュニティへの貢献のすべてをこのコマンド1つで実行できます
テキストの生成と同様 Python APIを使用することでモデルの変換や量子化を柔軟に行うことができます複雑なことはありません実際に MLX LMでは Pythonからモデルの様々な部分に様々な量子化の設定を簡単に適用できます
例えば最後の埋め込み投射層については量子化の影響を受けやすい傾向があるため高精度を維持するのが一般的ですこの例ではそれらのレイヤーは 6ビットに量子化し他のレイヤーでは4ビットを使用することで品質と効率性を両立させていますそれにはquant_predicate関数を指定しますこれは小さな関数で各レイヤーを受け取ってそこに使用する量子化パラメータを返しますそれ以外はまったく同じです convertを呼び出して Hugging Faceのパスと出力先のローカルディレクトリを指定するとモデルのダウンロードや量子化した結果の保存など残りの処理はMLXで実行されますこのようなきめ細かい制御はモデルの圧縮を試す場合やパフォーマンスと精度の妥協点を見極める際に非常に役立ちます
ここまでは大規模言語モデルを使ってテキストを生成する方法、それらを量子化して推論の高速化とモデルの軽量化を実現する方法を説明しましたしかし MLXはこれだけでなくトレーニングなどにも役立ちます MLX LMにより独自データを使って大規模言語モデルを Mac上でファインチューニングできますデータをデバイスの外部に持ち出す必要がない点が重要です何より 1行もコードを記述する必要がありませんではファインチューニングを見てみましょう
大規模言語モデルは通常インターネット上にある大量の汎用的なデータセットでトレーニングされます幅広い知識が得られますが特定分野の専門性に欠けたり特定のタスクに必要な用語や表現が不足したりする可能性がありますそのようなモデルを新しいコンテキストに適応させるのがファインチューニングです特定分野の小規模なデータセットでさらにトレーニングして新しい機能を加えたり特定のニーズに合わせて応答をカスタマイズしたりできます従来このプロセスはクラウドで行われていましたがコストが増える上プライバシーや機微性の観点で理想的ではない場合も多くありました MLXなら大規模言語モデルのファインチューニングを Macでローカルに実行できますクラウドは不要でデータは外部に送信されません効率的かつセキュアで MLXのワークフローにシームレスに組み込めます
MLX LMは2種類のファインチューニングに対応しますモデル全体のファインチューニングと低ランクアダプタのトレーニングですフルファインチューニングでは事前トレーニング済みモデルの全パラメータが更新され最大限の柔軟性が得られますがリソースの消費量も増えますこれに対して低ランクアダプタのトレーニングでは少数の新しいパラメータをモデルに追加してそれだけのトレーニングを行い元のネットワークはそのまま維持しますそのためトレーニングは高速軽量になりメモリ効率も向上する場合が多くローカルハードウェアに適します実際にやってみましょうカスタムデータセットで Mistralモデルのファインチューニングを行います MLX LMでファインチューニングを実行するのが簡単なことをお見せします必要なのは1つのコマンドといくつかの引数だけですファインチューニングするモデル、データセットへのパス、トレーニング期間を指定します量子化はMLXに深く組み込まれているため mlx_lm.loraコマンドでは量子化されたモデルのアダプタもトレーニングできますこれによりファインチューニングの効果を損なうことなくメモリ使用量が劇的に減少します
この例では Mistralの4ビット量子化バージョンにトレーニングを行います完全精度バージョンと比較してモデルの重みに対するメモリ使用量が約3.5倍削減されますそのため大規模モデルでもファインチューニングが可能で Mac上で効率的に行えますこの1行のコマンドですぐにトレーニングを実行できます初心者の方でも簡単ですただしパフォーマンスの微調整が必要な場合はトレーニングプロセスをより詳細に制御できる必要がありますその場合にトレーニング設定ファイルを使用します MLX LMは設定ファイルに対応しておりトレーニングを様々な観点からきめ細かく制御できます例えばパスサイズ、学習率スケジュール、最適化の設定、評価間隔などがあります特定のデータセットやハードウェア最適化の目標に応じてトレーニングの設定をカスタマイズできアダプタの効果を最大限に高められます実際のファインチューニングとモデルの知識の更新について確認しましょうまず Mistral 7Bに直近のスーパーボウルの勝者を尋ねます
予想通り正しい回答ですが古い情報ですモデルのナレッジカットオフにより最近のイベントは把握していませんファインチューニングを行えばわずか数分でこの問題に対処できます最新のスーパーボウルに関する質問と回答を含む小規模なデータセットでトレーニングしてモデルの知識を更新すると正しく答えられるようになります
モデルをわずか数分ファインチューニングするだけでチームや選手、得点などに関する最新の情報を回答できるようになります
アダプタをトレーニングしたので MLX LMを使ってベースモデルに取り込みますこれによりデプロイや共有がしやすくなります自己完結型の1つのモデルになり配布や使用が容易になるからです
取り込みのプロセスではアダプタを元の重みと結合しますその結果アーキテクチャとパラメータ数は事前トレーニング済みのバージョンと同じで機能だけが更新されたモデルが得られます外から見れば他のモデルと同様の振る舞いでファインチューニングされた知識が組み込まれた状態です
アダプタをモデルに取り込むには mlx_lm.fuseコマンドを使用します結合後の重みの計算と指定されたパスへの結果の保存がすべて1つのステップで実行されます量子化解除や再量子化を手動で行う必要はありません MLXによって自動で処理されトレーニング中に使用したのと同じ量子化が維持されますファインチューニングした新しいモデルを他の人と共有するのも簡単です Hugging Faceのリポジトリ名を指定するだけで結合後のモデルがアップロードされ使用できるようになります Pythonを使ってテキストの生成と大規模言語モデルのファインチューニングを行いましたしかし MLXがひときわ優れているのは Swiftでもシンプルかつ柔軟に同様のことが行える点です MLXにより Swiftで大規模言語モデルをいかに簡単に使用できるかをご覧ください
こちらは Swiftで量子化した Mistralモデルを読み込みテキストを生成する場合の例です全体でわずか28行のコードです最初に MLXと言語モデルライブラリをインポートします次に modelコンテナを作成しますこれはモデルとトークナイザーへの同時アクセスを安全に管理するアクターです次に入力を準備しますプロンプトをトークン化しモデルが理解できる数値形式に変換します最後に生成ループを実行し結果を出力します先ほどのPythonと同様です同じワークフローで同じ機能ですが完全にSwiftネイティブのコードです次にモデルで複数回のやり取りにわたる会話の履歴を保持する方法を確認しましょう先ほどPythonで行ったのと同じです Swiftではさらに数行のコードが必要になります基本的な考え方は同じですキーバリューキャッシュを明示的に作成して複数の生成で再利用できるようにしますこれは1行追加するだけでできます難しいことはありませんやり取りをより正確に管理するため TokenIteratorも使用しますこれによりキーバリューキャッシュを直接設定し生成をステップごとに制御できますこの設定により柔軟な対応が可能になり複数ターンの会話や高度なプロンプトをすべてSwiftで処理できますこのセッションではコードまたはターミナルコマンドを使用し MLXで推論、トレーニング、量子化を簡単に行えることを見てきましたここで使用したのは上位の言語モデルAPIから下層で下支えするMetalカーネルに至るまですべてオープンソースです MLXには PythonおよびSwiftの高レベルのAPIが用意され C、C++、 Python、Swiftで主要な処理を実行できます柔軟性に優れスタック全体を制御できます Apple製ハードウェアで言語モデルや機械学習のワークフローを実行するための強力なフレームワークとなっていますこの次のステップについてお話しますここでは MLX LMの主な機能を紹介しましたがその他にも様々なことが可能です Appleのドキュメントでは分散推論と分散トレーニング、学習済み量子化、カスタムトレーニングループなどの高度な機能について説明しています MLXとMLX Swiftのサンプルリポジトリに用意されているプロジェクトを使って拡散モデルによる画像生成、音声認識、言語モデル全体のトレーニングなどのタスクを試すことができます独自のAIアプリを開発する場合でも機能を確認したい場合でも数回クリックするだけで必要なものが見つかります MLXと大規模言語モデルのパワーを活かして Appleのハードウェア上ですばらしい体験を実現してください

1:12 - Running DeepSeek AI's model with MLX LM
```
mlx_lm.chat --model mlx-community/DeepSeek-V3-0324-4bit
```

mlx_lm.generate --model "mlx-community/Mistral-7B-Instruct-v0.3-4bit" \
                --prompt "Write a quick sort in Swift"

4:35 - Changing the model's behavior with flags

mlx_lm.generate --model "mlx-community/Mistral-7B-Instruct-v0.3-4bit" \
                --prompt "Write a quick sort in Swift" \
                --top-p 0.5 \
                --temp 0.2 \
                --max-tokens 1024

4:48 - Getting help for MLX LM
```
mlx_lm.generate --help
```

5:26 - MLX LM Python API

# Using MLX LM from Python

from mlx_lm import load, generate

# Load the model and tokenizer directly from HF
model, tokenizer = load("mlx-community/Mistral-7B-Instruct-v0.3-4bit")

# Prepare the prompt for the model
prompt = "Write a quick sort in Swift"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True
)

# Generate the text
text = generate(model, tokenizer, prompt=prompt, verbose=True)

6:24 - Inspecting model architecture

from mlx_lm import load, generate

model, tokenizer = load("mlx-community/Mistral-7B-Instruct-v0.3-4bit")

print(model)
print(model.parameters())
print(model.layers[0].self_attn)

8:01 - Generation with KV cache

from mlx_lm import load, generate
from mlx_lm.models.cache import make_prompt_cache

# Load the model and tokenizer directly from HF
model, tokenizer = load("mlx-community/Mistral-7B-Instruct-v0.3-4bit")

# Prepare the prompt for the model
prompt = "Write a quick sort in Swift"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True
)

cache = make_prompt_cache(model)

# Generate the text
text = generate(model, tokenizer, prompt=prompt, prompt_cache=cache, verbose=True)

9:37 - Quantization

mlx_lm.convert --hf-path "mistralai/Mistral-7B-Instruct-v0.3" \
               --mlx-path "./mistral-7b-v0.3-4bit" \
               --dtype float16 \
               --quantize --q-bits 4 --q-group-size 64

10:33 - Model quantization with MLX LM in Python

from mlx_lm.convert import convert

# We can choose a different quantization per layer
def mixed_quantization(layer_path, layer, model_config):
    if "lm_head" in layer_path or "embed_tokens" in layer_path:
        return {"bits": 6, "group_size": 64}
    elif hasattr(layer, "to_quantized"):
        return {"bits": 4, "group_size": 64}
    else:
        return False

# Convert can be used to change precision, quantize and upload models to HF
convert(
    hf_path="mistralai/Mistral-7B-Instruct-v0.3",
    mlx_path="./mistral-7b-v0.3-mixed-4-6-bit",
    quantize=True,
    quant_predicate=mixed_quantization
)

13:37 - Model fine-tuning

mlx_lm.lora --model "mlx-community/Mistral-7B-Instruct-v0.3-4bit" 
						--train 
            --data /path/to/our/data/folder
            --iters 300 
            --batch-size 16

15:06 - Prompting before fine-tuning

mlx_lm.generate --model "./mistral-7b-v0.3-4bit" \
    --prompt "Who won the latest super bowl?"

15:34 - Fine-tuning to learn new knowledge

mlx_lm.lora --model "./mistral-7b-v0.3-4bit" 
						--train 
            --data ./data 
            --iters 300 
            --batch-size 8 
            --mask-prompt 
            --learning-rate 1e-5

15:48 - Prompting after fine-tuning

mlx_lm.generate --model "mlx-community/Mistral-7B-Instruct-v0.3-4bit" \
                --prompt "Who won the latest super bowl?" \
                --adapter "adapters"

16:29 - Fusing models

mlx_lm.fuse --model "mlx-community/Mistral-7B-Instruct-v0.3-4bit"
            --adapter-path "path/to/trained/adapters" \
            --save-path "fused-mistral-7b-v0.3-4bit" \
            --upload-repo "my-name/fused-mistral-7b-v0.3-4bit"
            
# Fusing our fine-tuned model adapters
mlx_lm.fuse --model "./mistral-7b-v0.3-4bit" \
            --adapter-path "adapters" \
            --save-path "fused-mistral-7b-v0.3-4bit"

17:14 - LLMs in MLX Swift

import Foundation
import MLX
import MLXLMCommon
import MLXLLM

@main
struct LLM {
    static func main() async throws {
        // Load the model and tokenizer directly from HF
        let modelId = "mlx-community/Mistral-7B-Instruct-v0.3-4bit"
        let modelFactory = LLMModelFactory.shared
        let configuration = ModelConfiguration(id: modelId)
        let model = try await modelFactory.loadContainer(configuration: configuration)
        
        try await model.perform({context in
            // Prepare the prompt for the model
            let prompt = "Write a quicksort in Swift"
            let input = try await context.processor.prepare(input: UserInput(prompt: prompt))
            
            // Generate the text
            let params = GenerateParameters(temperature: 0.0)
            let tokenStream = try generate(input: input, parameters: params, context: context)
            for await part in tokenStream {
                print(part.chunk ?? "", terminator: "")
            }
        })
    }
}

18:00 - Generation with KV cache in MLX Swift

import Foundation
import MLX
import MLXLMCommon
import MLXLLM

@main
struct LLM {
    static func main() async throws {
        // Load the model and tokenizer directly from HF
        let modelId = "mlx-community/Mistral-7B-Instruct-v0.3-4bit"
        let modelFactory = LLMModelFactory.shared
        let configuration = ModelConfiguration(id: modelId)
        let model = try await modelFactory.loadContainer(configuration: configuration)
        
        try await model.perform({context in
            // Prepare the prompt for the model
            let prompt = "Write a quicksort in Swift"
            let input = try await context.processor.prepare(input: UserInput(prompt: prompt))

            // Create the key-value cache
            let generateParameters = GenerateParameters()
            let cache = context.model.newCache(parameters: generateParameters)

            // Low level token iterator
            let tokenIter = try TokenIterator(input: input,
                                              model: context.model,
                                              cache: cache,
                                              parameters: generateParameters)
            let tokenStream = generate(input: input, context: context, iterator: tokenIter)
            for await part in tokenStream {
                print(part.chunk ?? "", terminator: "")
            }
        })
    }
}

関連する章

リソース

関連ビデオ

WWDC25