Metal 4による機械学習とグラフィックスの統合

Metal 4による機械学習とグラフィックスの統合

Metal 4を使用してグラフィックスアプリに機械学習をシームレスに統合する方法を紹介します。レンダリングやコンピューティングのタスクと並行してGPUのタイムラインでモデルを実行するための、テンソルリソースとMLエンコーダの概要を説明します。シェーダMLにおいて、高度なエフェクトの適用と性能の向上のためにシェーダ内にニューラルネットワークを直接埋め込む方法を解説します。また、Metal 4のMLワークロード向けの新しいデバッグツールの使用例を、サンプルアプリを用いたデモでお見せします。

関連する章
- 0:00 - イントロダクション
- 2:52 - テンソルについて
- 6:21 - MLネットワークのエンコード
- 12:51 - シェーダへのMLの埋め込み
- 20:26 - MLワークロードのデバッグ
リソース
関連ビデオ

WWDC25
WWDC24
- Apple GPUでの機械学習モデルとAIモデルのトレーニング
- Metalによる機械学習の加速
AppleのMetal Frameworkチームのエンジニア Preston Provinsです同僚のScottも後で参加します機械学習とゲームを統合するMetalの追加機能について説明します ScottはMetal 4の機械学習のデバッグ操作を向上させるために設計された追加のGPUツールを紹介しますこのセッションでは Metal 4での機械学習とグラフィックスの統合方法をご説明します Metal 4が提供するすべての機能について詳しくお知りになりたい方は Metal 4の基礎に関する説明をご覧になり Metal 4の他の新機能を学習してください機械学習ではアップスケーリングアセット圧縮アニメーションブレンディングニューラルシェーディングなどの技術を使ってゲームやグラフィックに変革をもたらしていますこれらの技術によって創造性と没入感の限界が広がります複雑な現象をシミュレートし視覚的な忠実度が向上しますまた新しいスタイルや効果を効率的に調べることができます CoreMLはセグメンテーション分類や生成AIなど幅広い機械学習タスクに最適です機械学習モデルの作成が容易になります機械学習のアプリケーションで GPUタイムラインとの緊密な統合が必要になる場合 Metal 4がこれに対応します一般的なフレームではゲームは演算パスで頂点スキニングを実行しレンダリングパスでシーンをラスタライズし別の演算パスでアンチエイリアスを適用できますアンチエイリアスは通常テンポラルアンチエイリアスなどの画像処理技術を使って行われます最先端の技術によりこうした従来の方法が機械学習ネットワークに置き換わりますこのネットワークは画像をアップスケールし残りのレンダリングを低解像度で実行できるようにしてパフォーマンスを向上させます
シェーダ内で小さなニューラルネットワークを実行することも一般的になりつつあります従来のフラグメントシェーダはマテリアルテクスチャをサンプリングしますが画期的な技術により小さなニューラルネットワークを使ったテクスチャの即時解凍やより高い圧縮率の実現が可能になりましたこのニューラルレンダリング技術はマテリアルセットをブロック圧縮されたフットプリントの 50%にまで圧縮しますこのセッションでは機械学習ワークフロー用の Metal 4の新しいリソースである MTLTensorについて説明します MTL4MachineLearningCommand Encoderについて詳しく説明しますこの新しいエンコーダタイプは他の描画やディスパッチと並行して GPUタイムライン上でネットワーク全体を実行しますシェーダMLについて説明しますこれを使うと機械学習操作を独自のシェーダ内に埋め込むことができます最後に Metalデバッガを使ってMLをアプリケーションにシームレスに統合する方法を説明します MTLBufferとMTLTextureについてはもうご存じかと思われます今年Metal 4は新しいリソース MTLTensorを導入しかつてないほど簡単に機械学習をデータに適用できるようになりました MTLTensorは演算グラフィックス機械学習のコンテキストで使える基本的な機械学習のデータ型です機械学習ワークロードではテンソルが広く利用されます MTL4MachineLearning CommandEncoderは MTLTensorを使って入力と出力を表しシェーダMLはMTLTensorを使って重みおよび入力と出力を表します
MTLTensorはデータ用の多次元コンテナでありランクと各ランクの次元数によって表されます MTLTensorは2次元を超えて拡張可能であり実用的な機械学習の用途に必要なデータレイアウトを柔軟に表現できますたとえばMTLTextureは最大で 4つのチャネルに制限されておりテクスチャフォーマットに応じてその範囲に厳密な制限があります機械学習では畳み込み演算など 2次元を超えるデータを使うことが一般的です MTLBufferのような平坦なデータ表現を使用する場合複数の次元を持つデータに対して複雑なインデックス付けスキームが必要になります MTLTensorでの多次元データに対するインデックス作成は非常に簡単です各ランクのストライドと次元が MTLTensorオブジェクトに組み込まれておりインデックス計算で自動的に使用されるためです MTLTensorを作成するプロセスを見ていきましょう MTLTensorのランクは軸がいくつあるかを表しますこのMTLTensorのランクは2ですデータの行と列で構成されています次元の範囲はその軸に沿ったデータポイントの数を表します dataTypeプロパティはMTLTensorがラップしているデータの形式を定義します使用方法を示すプロパティはMTLTensor がどのように利用されるかを示します MTLTensorUsage MachineLearningは MTL4MachineLearning CommandEncoder用 MTLTensorUsageComputeや MTLTensorUsageRenderはシェーダプログラム内で使いますテクスチャのusageプロパティのように用途を組み合わせることもできますこれらはMTLTensorDescriptor オブジェクトに設定すべき重要なMTLTensorプロパティですではコードでMTLTensorを作ってみましょう記述子のプロパティが入力されたら MTLDeviceオブジェクトで newTensorWithDescriptor: offset:error:を呼び出し新しいMTLTensorを作成します MTLTensorはMTLDeviceオブジェクトまたは MTLBufferオブジェクトから作成されますただしデバイスから作成された MTLTensorが最高のパフォーマンスを発揮します MTLTexturesをスウィズルする方法と同様に MTLDeviceオブジェクトから MTLTensorを作成すると読み取りや書き込み用に最適化された不透明なレイアウトが生成されますでは既存のMTLBufferからの MTLTensorの作成を見てみましょう MTLDeviceから作成された MTLTensorとは異なり MTLBufferから作成されたMTLTensorは密にパックされることを想定していないためストライドを指定する必要があります最も内側のストライドは常に1である必要があります 2番目のストライドは行インデックスが増分されるときにいくつの要素がスキップされるかを示します
ソースMTLBufferには行末にある未使用の列などのパディングが含まれている可能性があります MTLTensorが適切な要素をラップするにはパディングを考慮する必要があります基盤となるバッファから MTLTensorを作成するにはデバイスに割り当てられたテンソルと同様に dataTypeとusageのプロパティを設定します次にMTLTensorDescriptorの stridesプロパティを設定しますこの結果として得られるMTLTensorが MTLBufferの内容を適切にラップします最後にソースのMTLBufferで newTensorWithDescriptor: offset:error:を使います以上でMTLTensorを割り当てて作成する方法について説明しました次は新しい機械学習エンコーダについて詳しく説明します MLの処理をGPUタイムラインに追加してみましょう Metal 4では MTL4ComputeCommandEncoderと MTL4RenderCommandEncoderを使い演算コマンドとレンダリングコマンドをそれぞれGPUタイムラインに簡単に追加できます今年は機械学習の処理を GPUタイムラインに追加することで統合をさらに推し進めます MTL4MachineLearning CommandEncoderではモデル全体をGPU上の他のMetalコマンドと並行して実行し同期させることができますまた他のMTLCommandsとのシームレスな統合を実現しますこれは機械学習コマンドをエンコードするための新しいエンコーダで演算エンコーダやレンダリングエンコーダに似たインターフェイスがあります Metal 4同期プリミティブは演算やレンダリングと同様に機械学習コマンドでも動作します同期によりワークオーケストレーションの制御が可能になり並列処理が容易になったため高いパフォーマンスを維持できます MTL4MachineLearningCommand Encoder作成ワークフローはオフラインとランタイムの 2つの部分に分けることができますワークフローのオフライン部分はアプリケーションの起動前に実行されランタイム部分はフレームの途中などアプリケーションの動作中に実行されますワークフローのオフライン部分から始めて MTLPackageを作成しましょう MTLPackageは1つ以上の関数を格納するコンテナであり各関数はMLネットワークを表します MTLPackageはMetalで機械学習の処理を実行するために使用できますこの形式はMetalでの読み込みと実行用に最適化されています MTLPackageを作成するにはまずCoreMLパッケージが必要ですここではCoreMLコンバータを使ってネットワークが作成された MLフレームワーク（PyTorchやTensorflowなど）から CoreMLパッケージに変換しますこれはPythonのCoreMLツールライブラリを使用して PyTorchモデルをエクスポートする例ですツールをインポートしモデルでconvertを実行するだけでエクスポートが生成されます最後にそのエクスポートを MLパッケージとして保存しますここで強調したいことがありますすべてのCoreMLパッケージが MLプログラムというわけではなくサポートされているのは MLプログラムのみだということです CoreMLパッケージが古いOSでエクスポートされた場合この記事を参照してCoreMLモデルファイルを MLパッケージとしてエクスポートする方法の詳細を確認してください CoreMLパッケージを作成したら保存したモデルに対して metal-package-builderコマンドラインを実行するだけで MTLPackageを生成できますこれによりCoreMLパッケージが実行時に効率的に読み込める形式に変換されます MTLPackageの作成は以上ですワークフローのオフライン部分は完了し残りの部分は実行時に開始されますネットワークをコンパイルするにはまずMTLPackageを MTLLibraryとして開きますパッケージ内のネットワークを表す関数の名前を使用して関数記述子を作成しますこの場合はmain関数です MTL4MachineLearningPipelineState を作成してネットワークをコンパイルしますここでは関数記述子とMTL4Machine LearningPipelineStateDescriptor を使いますネットワークに動的入力がある場合はMTL4 MachineLearningPipelineStateDescriptor で各入力のサイズを指定します特定のデバイス向けにネットワークをコンパイルするには MTL4MachineLearningPipeline StateDescriptorを使って MTL4MachineLearningPipeline Stateを作成します
MTL4MachineLearningPipelineState オブジェクトの作成は以上です次のステップではMTL4Machine LearningCommandEncoderを作り処理をエンコードします MTL4MachineLearning CommandEncoder オブジェクトを使って GPUタイムラインで処理をディスパッチする方法を詳しく見てみましょう MTL4MachineLearningCommand Encoderオブジェクトを作成しますこれは演算やレンダリングのエンコーダの作成と同様です作成したMTL4MachineLearning PipelineState オブジェクトを設定し使用する入力と出力をバインドします dispatchNetworkWith IntermediatesHeap メソッドを使って処理をディスパッチします
機械学習エンコーダはヒープを使って操作間の中間データを保存しますバッファを作成して解放する代わりに異なるディスパッチでのリソースの再利用を可能にしますこのMTLHeapを作成するには MTLHeapDescriptorを作成し typeプロパティを MTLHeapTypePlacementに設定しますパイプラインのintermediateHeapSizeを照会することでネットワークの最小ヒープサイズを取得できますヒープのsizeプロパティはその値以上になるように設定しますネットワークディスパッチのエンコード後エンコードを終了しコマンドを送信して GPUタイムライン上で実行します
先に説明したように Metal 4同期プリミティブは演算やレンダリングと同様に機械学習コマンドでも動作します機械学習の出力に依存しない処理は適切に同期されていれば同時に実行できます
ネットワークの出力を使用する処理だけがスケジュールされた機械学習処理の完了を待機する必要があります
MTL4MachineLearningCommand Encoderディスパッチを同期するには MTLBarriersやMTLFencesなどの標準Metal4同期プリミティブを使います新しいMTLStageMachineLearningはバリアのMLワークロードを特定する際に使いますたとえばネットワークによって生成された出力を待機してレンダリング処理を行うには適切なレンダリングステージと機械学習ステージの間にバリアを使えます MTL4MachineLearningCommand Encoderの動作を見てみましょう MTL4MachineLearning CommandEncoderで完全な畳み込みネットワークをディスパッチしピクセルごとのオクルージョン値を予測しますこれを評価するには慎重な同期が必要です深度バッファとビュー空間の法線は MLワークロードの起動前に設定されますネットワークでのデータの処理中レンダラは他のレンダリング関連のタスクを並行してディスパッチし最終フレームを合成する前にニューラルの結果を待機します MTL4MachineLearning CommandEncoderはゲームのフルフレーム情報の処理に限らずリアルタイムの予算に収まるあらゆるネットワークに使用でき Metal 4同期プリミティブを活用することで統合のニーズに最適な方法で利用できますこのようにMetal 4のMTL4Machine LearningCommandEncoderにより GPUタイムライン上で大規模な機械学習ワークロードを簡単に実行できますまとめると MTL4MachineLearningCommand Encoderにより機械学習はMetal 4の演算やレンダリングと統合されました MTL4MachineLearningCommand Encoderにより全ネットワークをGPUタイムラインで実行できますリソースは他のGPUコマンドと共有可能で強力なMetal 4同期プリミティブのセットにより高性能な機械学習処理が実現されます Metal 4では既存のカーネルやシェーダー内に小規模な機械学習操作を埋め込むためのシェーダMLも導入されています最先端のゲームでは従来のレンダリングアルゴリズムに代わって機械学習を採用しています MLベースの技術によってグローバルイルミネーションマテリアルシェーディングジオメトリ圧縮マテリアル圧縮などのソリューションが提供されますこれらの技術はパフォーマンス向上やメモリ占有量削減を実現する場合がありますわかりやすい例としてニューラルマテリアル圧縮を考えてみましょうこれはブロック圧縮形式と比べて最大50%の圧縮を可能にする技術です従来のマテリアルではアルベドや法線マップなどのマテリアルテクスチャをサンプリングしますではサンプリングされた値でシェーディングを行いますニューラルマテリアル圧縮で潜在的なテクスチャデータをサンプリングしますサンプリングした値で推論を実行しネットワーク出力を使ってシェーディングを実行します
各ステップを独自のパイプラインに分割するのは非効率的です各ステップではデバイスメモリに対してテンソルを同期し出力の操作後は後続の操作のために出力を同期し直す必要があるからです
パフォーマンスを最大化するにはこれらのステップを1つのシェーダディスパッチに統合しますシェーダMLを使うと Metalではフラグメントシェーダ内で MLネットワークを直接実行できステップ間でデバイスメモリを経由する必要がありません入力テンソルを初期化しネットワークを実行し各フレームで必要なピクセルのみをシェーディングできますこれにより実行時のメモリ占有量やゲームのディスク容量が改善されますニューラルマテリアル評価について詳しく見てみましょう入力MTLTensorの初期化はネットワークの重みの読み込みと入力フィーチャMTLTensorの構築の 2つの部分に分けられます入力フィーチャMTLTensorはフラグメントのUV座標を使いバインドされたテクスチャをサンプリングして作られます
推論では学習した重み行列によって入力フィーチャMTLTensorが変換されフィーチャの抽出や活性化の演算が行われレイヤを通じて情報が伝播されますこの評価は複数のレイヤに対して繰り返されその結果解凍されたマテリアルが得られます最終的には解凍されたマテリアルはフラグメントのシェーディング計算に使われます
シェーダMLを使った入力MTLTensorの初期化方法を見てみましょうまずシェーダMLを利用するフラグメントシェーダを宣言しネットワークの重みを渡します新しいmetal_tensorヘッダを含めます MTLTensor型を使ってネットワークの重みにアクセスします MTLTensorはバッファバインディングスロットを使ってシェーダにバインドされます引数バッファを使って MTLTensorを渡すこともできます MTLTensor型はテンプレート化されています最初のテンプレート引数は MTLTensorのdataTypeですこれらのMTLTensorはデバイスメモリ内に作成されたためデバイスアドレス空間修飾子を使います 2番目の引数はMTLTensorの次元と MTLTensorに対するインデックス作成に使われる型を表しますここではdextentsを使い動的エクステントを持つランク2のテンソルを定義していますフラグメントシェーダが設定されましたニューラルマテリアル圧縮アルゴリズムを実装しましょうネットワークの重みを渡すと 4つの潜在的なテクスチャをサンプリングすることで入力MTLTensorを作成できます MTLTensorはバインドできる単なるリソースではなくシェーダ内でインラインMTLTensorを直接作成することもできますサンプリングされた値をラップする MTLTensorを作成しネットワークの評価に使いますインラインMTLTensorは緊密にパックされることを前提としているため作成時にストライドを渡す必要はありませんこれで入力MTLTensorの初期化は完了ですニューラルネットワークからの値を推論する設定ができました評価では学習したパラメータで入力を変換し入力はその後活性化されます活性化は後続のレイヤに渡され最終レイヤの活性化が解凍されたマテリアルを形成します
今年 Metalは Metalパフォーマンスプリミティブを導入しシェーディング言語で MTLTensor操作を利用可能にしますこのライブラリは高性能なAPIのセットです MTLTensorでパフォーマンスの移植性を備えたソリューションを実現します行列乗算や畳み込みの演算を実行できます行列乗算はニューラルネットワーク評価の中心となるものです Metalパフォーマンスプリミティブの matmul2d実装を使ってパフォーマンスの移植性を備えたネットワーク評価ルーチンを実装します始めに新しいMetalPerformance Primitivesヘッダを Metalシェーダ内に挿入します行列乗算のパラメータは matmul2d_descriptorオブジェクトを使って設定しますテンプレートパラメータの最初のセットは行列乗算の問題のサイズを指定しますテンプレートパラメータの次のセットは演算の実行時に行列乗算への入力を転置する必要があるかどうかを制御します最後のテンプレートパラメータは精度要件を制御します
記述子に加えて演算に関連するスレッドの数を使って matmul2d演算を特殊化する必要がありますフラグメントシェーダで作業しているため execution_threadを使ってこのスレッドが行列乗算全体を実行することを示します次にその設定を使って行列乗算を実行します
最後に ReLU活性化関数を使って行列乗算の結果の各要素を活性化しますこのプロセスは2番目のレイヤでも繰り返されシェーダ内でネットワークが完全に評価されます評価が完了すると解凍されたマテリアルがシェーディングで利用できるようになります出力MTLTensorはチャンネル情報を保持しておりこの情報はテクスチャからサンプリングした他の値と同様に利用できますこれはニューラルマテリアル圧縮と従来のマテリアルを比較したリアルタイムデモですニューラルマテリアルを使っても特にシェーディング時には品質の低下は認識されませんこれはベースカラーのみのデモですニューラルマテリアルと従来のマテリアルの違いはほとんどわかりませんがニューラルマテリアルではメモリ使用量やディスク容量が半分ですみます
MTLTensor操作はフラグメントシェーダ専用というわけではありませんすべての関数とすべてのシェーダステージでも使えます simdgroupやthreadgroup全体が同じデータに対して同じ操作を行う場合より大きな実行グループを選ぶことでハードウェアを有効に活用できますただしMTLTensor操作がデータに対して分岐していたり MTLTensor操作の呼び出し箇所で不均一な制御フローを示す場合は単一スレッドの実行グループを使う必要があります他の実行スキームでは実行グループに対して分岐や不均一な制御フローがないと想定しますこれで独自のシェーダで行列乗算や畳み込みなどのML操作を実行できますシェーダーMLを使えば複数のML操作を 1つのシェーダーで簡単に実行できますこれはキャッシュフレンドリでディスパッチやメモリ帯域幅が少なくて済み特に小規模なネットワークに適していますまたシェーダMLではカスタム操作の作成に必要な詳細な制御ができます Metalアプリへの最先端のML技術の実装がこれまでになく簡単になりました以上の方法でシェーダMLを使ってニューラルネットワークをシェーダプログラムに埋め込むことができますでは同僚のScottにバトンタッチします Metal 4の新しいデバッグツールを使って機械学習ワークロードのデバッグを簡単に行う方法を説明しますこんにちは GPU Toolsチームのソフトウェアエンジニア Scott Moyersです先ほど Prestonが機械学習を使ってアンビエントオクルージョンを計算するアプリケーションについて説明しましたこのアプリでは機械学習ネットワークを Metalレンダリングパイプラインに直接エンコードしますこのアプリの開発を手伝っているとき出力に深刻なアーティファクトが発生するという問題が発生しましたアンビエントオクルージョンパスだけを有効にして問題を強調してみますオブジェクトの角に影があるはずなのにノイズが多くてシーンの構造がほとんど見えません新しいツールを使って問題の検出と修正をどのように行ったかを紹介しますまず XcodeでアプリのGPUトレースを取り込みますそのためには画面下部のアイコンボタンの順にクリックします
キャプチャが完了すると取り込んだフレームがに表示されます左側のデバッグナビゲータにはアプリケーションがフレームの構築に使ったコマンドの一覧が表示されますたとえばオフスクリーンのコマンドバッファには G-Bufferパスなどの多くのエンコーダが含まれています次のコマンドバッファに含まれているのは MTL4MachineLearningCommand Encoderです Metal 4を使うと同期を詳細に制御できました依存パス間のバリアやイベントの設定には注意していましたが同期の不具合がこれらの問題の原因ではないかと考えましたこれを確認するために Metalアプリケーションの構造の概要を把握するための便利なツールである依存関係ビューアを使いました左上のアイコンをクリックします
このインターフェイスを使うとバリアやイベントなどの同期プリミティブとアプリケーションのすべてのコマンドを確認できますコマンドエンコーダを拡大するとさらに詳細が表示されます最初のコマンドバッファの完了があります
その下のコマンドは法線をMTLTensorにコピーします次にバリアがありその次が MTL4MachineLearningCommand Encoderです全体的な構造を確認するためにコマンドエンコーダを縮小します新しいアンビエントオクルージョンパスは右のコマンドバッファにありますこのパスを追加する前はアプリケーションは正常に動作していたため上部と下部のコマンドバッファ内の依存関係は正しいと考えられます MTL4MachineLearningCommand Encoderを含む新しいコマンドバッファを調べます
コマンドバッファを開始する前に共有イベントシグナルを待機しますコマンドバッファの最後に次のバッファのブロックを解除するシグナルがありますこのためこのコマンドバッファと並行して他のコマンドを実行することはできませんコマンドバッファ内では各エンコーダ間にバリアがあり各コマンドが順番に実行されるようになっていますこの時点では少なくともこのフレーム内に同期の問題はないと確信していましたそこでMTL4MachineLearningCommand Encoderを直接確認することにしましたアンビエントオクルージョンネットワークのディスパッチ呼び出しをクリックするとバインドされたリソースに移動します右側ではアシスタントエディタに出力MTLTensorが表示されています実行中のアプリケーションと同じアーティファクトを確認できるので明らかに正しくありません入力MTLTensorをダブルクリックして出力の横に表示します入力にはビュー空間の法線として想定されるものが含まれています異なる方向を向いているオブジェクトには異なる成分強度が含まれていますつまり問題は機械学習ネットワーク内にあるはずですバインドされたリソースのビューに戻り今度はをダブルクリックして新しいMLネットワークデバッガで開きますこのツールはモデル内で何が起こっているかを理解する上で重要です
このグラフはアンビエントオクルージョンネットワークの構造を表していますこれはPyTorchで記述しましたターゲットのビルドフェーズでは先ほどPrestonが提案したことを実行して CoreMLパッケージとしてエクスポートし MTLPackageに変換しますボックスは操作を示し接続はモデル内における左から右へのデータフローを示します私はどの操作によってアーティファクトが発生したのかを知りたかったのです最終的な出力に問題があり入力は適切であることはわかったのでグラフを二分して絞り込みましたほぼ中間にある操作を選んでみましょう操作を選ぶと右側にその説明が表示されその属性や入力と出力も表示されますまた操作が出力する中間MTLTensorデータを調べることもできますプレビューをクリックして MTLTensorビューアに表示しますアーティファクトはここで確認できるのでこれより前の操作を調べます
この操作でも出力にアーティファクトが発生します入力を調べてみましょう
このMTLTensorはシーン内のエッジを強調表示しているように見えますがこれは想定通りでありまたネットワークへの入力は深度バッファから抽出されたエッジですつまりネットワーク領域内に何か問題があるようです
この結合された領域は操作の左上にある矢印をクリックすると展開できます
これらの操作の順序とタイプからこれがSignedSmoothstep関数であることがわかります最初に入力の絶対値を取得します次に値を0から1の間に制限しますしかしその結果が結果自体の累乗になっており正しくないと思われます SignedSmoothstep関数には累乗演算はなかったはずです何が起きているのか確認するために Pythonコードを調べてみましょうデバッグセッションを停止してソースコードに戻ります
実行しているモデルは LightUNetというクラスにあります想定通りの動作をしているか順伝播関数を調べてみます
最初に実行するカスタム操作は SignedSmoothstepですこれはMLネットワークデバッガで確認した結合された領域です順伝播関数に移動します
これは入力の符号を維持する単純なsmoothstep操作のはずですしかしこの行でバグが見つかりましたアスタリスクを多く入力したため乗算が累乗演算になっています余分なアスタリスクを削除して再度実行してみます
これで Metal 4の組み込み MTL4 MachineLearningCommandEncoder を使ったニューラルアンビエントオクルージョンの実装が動作します
このデモでは Metalデバッガを使った Metal 4機械学習アプリケーションのデバッグ方法を紹介しました最初に依存関係ビューアを使って同期を検証しました次に MTLTensorビューアでネットワークの入出力を調べ問題がネットワーク内部にあることを確認しました最後に MLネットワークデバッガを使ってネットワーク内の操作をステップ実行し問題を特定しました
これらのツールはMetalアプリのデバッグや最適化に利用できるツールのファミリーに含まれていますではこれまでの内容をまとめましょう Metal 4ではMTLTensorが導入されています MTLTensorは機械学習データ専用に設計された新しい多次元リソースです MTLTensorは2次元を超える複雑なデータレイアウトに柔軟に対応できますストライドと次元の情報が内蔵されておりインデックス作成を大幅に簡素化できます Metal 4の新機能により機械学習ワークロードを Metalパイプラインに統合できます MTL4MachineLearningCommand Encoderにより機械学習ネットワーク全体をGPUタイムライン上で直接実行できますこれにより演算やレンダリング処理とのシームレスな統合と同期を実現できます小規模なネットワークではシェーダMLとMetalパフォーマンスプリミティブライブラリを使うと機械学習操作をシェーダに直接埋め込むことができます最後になりますが Metalデバッガを使うと Metal 4アプリケーションの実行内容を非常に詳細に可視化できます新しいMLネットワークデバッガによってネットワークを理解しデバイス上でどのように実行されるかを把握できますこうした情報は正確性の確保とパフォーマンスの最適化に不可欠です次のステップとして最新のOSとXcodeをインストールし Metal 4の MTL4MachineLearningCommand EncoderとシェーダMLを実際に試してみてください Metalデベロッパツールがどのように役立つかについて詳しくは Apple Developer Webサイトをご覧ください Metal 4アプリケーションを最大限活用するには他のMetal 4に関する説明もご覧くださいこれらの新機能で皆さんが何を構築するのかを楽しみにしていますありがとうございました

8:13 - Exporting a Core ML package with PyTorch

import coremltools as ct

# define model in PyTorch
# export model to an mlpackage

model_from_export = ct.convert(
    custom_traced_model,
    inputs=[...],
    outputs=[...],
    convert_to='mlprogram',
    minimum_deployment_target=ct.target.macOS16,
)

model_from_export.save('model.mlpackage')

9:10 - Identifying a network in a Metal package

library = [device newLibraryWithURL:@"myNetwork.mtlpackage"];

functionDescriptor = [MTL4LibraryFunctionDescriptor new]
functionDescriptor.name = @"main";
functionDescriptor.library = library;

9:21 - Creating a pipeline state

descriptor = [MTL4MachineLearningPipelineDescriptor new];
descriptor.machineLearningFunctionDescriptor = functionDescriptor;

[descriptor setInputDimensions:dimensions
                 atBufferIndex:1];

pipeline = [compiler newMachineLearningPipelineStateWithDescriptor:descriptor
                                                             error:&error];

9:58 - Dispatching a network

commands = [device newCommandBuffer];
[commands beginCommandBufferWithAllocator:cmdAllocator];
[commands useResidencySet:residencySet];

/* Create intermediate heap */
/* Configure argument table */

encoder = [commands machineLearningCommandEncoder];
[encoder setPipelineState:pipeline];
[encoder setArgumentTable:argTable];
[encoder dispatchNetworkWithIntermediatesHeap:heap];

10:30 - Creating a heap for intermediate storage

heapDescriptor = [MTLHeapDescriptor new];
heapDescriptor.type = MTLHeapTypePlacement;
heapDescriptor.size = pipeline.intermediatesHeapSize;
        
heap = [device newHeapWithDescriptor:heapDescriptor];

10:46 - Submitting commands to the GPU timeline

commands = [device newCommandBuffer];
[commands beginCommandBufferWithAllocator:cmdAllocator];
[commands useResidencySet:residencySet];

/* Create intermediate heap */
/* Configure argument table */

encoder = [commands machineLearningCommandEncoder];
[encoder setPipelineState:pipeline];
[encoder setArgumentTable:argTable];
[encoder dispatchNetworkWithIntermediatesHeap:heap];

[commands endCommandBuffer];
[queue commit:&commands count:1];

11:18 - Synchronization

[encoder barrierAfterStages:MTLStageMachineLearning
          beforeQueueStages:MTLStageVertex
          visibilityOptions:MTL4VisibilityOptionDevice];

15:17 - Declaring a fragment shader with tensor inputs

// Metal Shading Language 4

#include <metal_tensor>

using namespace metal;
 
[[fragment]]
float4 shade_frag(tensor<device half, dextents<int, 2>> layer0Weights [[ buffer(0) ]],
                  tensor<device half, dextents<int, 2>> layer1Weights [[ buffer(1) ]],
                  /* other bindings */)
{
    // Creating input tensor
    half inputs[INPUT_WIDTH] = { /* four latent texture samples + UV data */ };

    auto inputTensor = tensor(inputs, extents<int, INPUT_WIDTH, 1>());
    ...
}

17:12 - Operating on tensors in shaders

// Metal Shading Language 4

#include <MetalPerformancePrimitives/MetalPerformancePrimitives.h>

using namespace mpp;

constexpr tensor_ops::matmul2d_descriptor desc(
              /* M, N, K */ 1, HIDDEN_WIDTH, INPUT_WIDTH,
       /* left transpose */ false,
      /* right transpose */ true,
    /* reduced precision */ true);

tensor_ops::matmul2d<desc, execution_thread> op;
op.run(inputTensor, layerN, intermediateN);

for (auto intermediateIndex = 0; intermediateIndex < intermediateN(0); ++intermediateIndex)
{
    intermediateN[intermediateIndex, 0] = max(0.0f, intermediateN[intermediateIndex, 0]);
}

18:38 - Render using network evaluation

half3 baseColor          = half3(outputTensor[0,0], outputTensor[1,0], outputTensor[2,0]);
half3 tangentSpaceNormal = half3(outputTensor[3,0], outputTensor[4,0], outputTensor[5,0]);

half3 worldSpaceNormal = worldSpaceTBN * tangentSpaceNormal;

return baseColor * saturate(dot(worldSpaceNormal, worldSpaceLightDir));

関連する章

リソース

関連ビデオ

WWDC25

WWDC24