WebGPUでGPUコンピューティングのパワーを最大化

その他のビデオ

WebGPUでGPUコンピューティングのパワーを最大化

WebGPU APIを使用して、グラフィックスや一般的な演算でGPUデバイスに安全にアクセスする方法を学びましょう。WGSLシェーディング言語を使ってGPUプログラムを作成する方法についても説明します。すべてのデスクトップとモバイルデバイスの電力消費を最小限に抑えつつ最適なパフォーマンスを実現するためのベストプラクティスも紹介します。

関連する章
- 0:00 - イントロダクション
- 2:14 - WebGPU APIの詳細
- 9:54 - シェーダの開発
- 13:57 - パフォーマンスの最適化
リソース
関連ビデオ

WWDC25
- SafariとWebKitの新機能
- SwiftUI向けWebKitの紹介
WWDC20
- Apple GPUとMetalの併用
- Metal PerformanceをApple Silicon Macに最適化する
こんにちは Safari Teamのエンジニア Mikeです本日はWebGPUを使って WebからGPU上の並列演算を実現する方法について説明します WebGPUは3Dグラフィックスに関して WebGLと同じことができますがパフォーマンスと柔軟性ははるかに優れています Web上のグラフィックスに最適ですまたブラウザを使いGPU上で汎用的な演算を行う唯一の方法でもあります Metalに詳しい方であればすぐに馴染めるはずですほとんどの呼び出しはMetalフレームワーク呼び出しと1対1の対応関係があります実際にはMac、iPhone iPad、Vision Proなど Metalに対応するすべてのプラットフォームでサポートされています Web APIであるため WebGPUを使う WebサイトやWeアプリは対応する環境であればどこでも動作します Apple以外のシステムでは WebGPUは Metalに似たAPIで実装されます低レベルのグラフィックスプログラミングに詳しくなくても WebGPUをサポートする多くのグラフィックスライブラリを使えば WebGPUが提供するパフォーマンスや機能をすべて利用できます WebGPUを内部で実行する threeJSを使えばこれらの美しい3Dクラゲをリアルタイムでアニメーション化できますこれは素晴らしい例です Safariで非常にスムーズに動作します最新ハードウェアを最大限に活用できるように WebGPUが一から構築されているためですまずAPIを調べ WebGPUとMetalとの対応を確認しますここではWebGPUアプリに必要な多くのコードについて順を追って説明します次に GPU上で直接実行されるコード WebGPUシェーダプログラムの作成方法を説明しますシェーディング言語とWeb用に新しい言語が必要な理由について説明します
基本を説明した後で APIで最高のパフォーマンスを実現する方法を説明しますすでにWebGPUに詳しい方であれば Appleプラットフォーム向けの特定の最適化について説明しているので特に興味深い内容となるでしょうではグラフィックスパイプラインを簡単に見ていきましょう
パイプラインは左から右に流れると考えることができますまずWebサイトやWebアプリで画像ビデオバイナリデータなどのコンテンツを読み込みます
そのコンテンツはWebKitに渡されそこでGPUで使えるように準備されます
WebKitはMetalフレームワークを呼び出し後でグラフィックスハードウェア上で直接実行されるリソースやプログラムを作成します
では少し詳しく見ていきましょう WebGPUでは Metalは3種類のリソースバッファテクスチャサンプラを生成しますこれらのリソースはWebKitによって GPUバインドグループにまとめられます基本的にはリソースをグループ化して GPUで効率的に使うための構造化された方法です内部的にはこれらのリソースはすべて引数バッファにまとめられますこのバッファは実際のGPUリソースへの参照を保持するMetalバッファですプログラム自体はコードの文字列から生成され主に3つのタイプのプログラム演算頂点フラグメントにコンパイルされますこれらはGPU上で実行される実際の命令であり計算から画面上のピクセルのレンダリングまですべてを実行しますそこでリソースとプログラムがパイプラインにどう組み込まれるかを十分理解した上で WebGPUがAPIでさまざまなインターフェイスをどのように定義するかについて簡単に説明します
WebGPUはフラットAPIですが多くのインターフェイスを持っています階層の最上位には GPUオブジェクトインターフェイスと GPUアダプタインターフェイスがあります
canvasはWebGPUでよく使われます canvasはWebGPUのコンテキストを照会することでGPUCanvasContextを返します
デバイスはほとんどのAPI呼び出しのメインエントリポイントですこれは他のほとんどのインターフェイスを作成するために使われます
APIにはさまざまなインターフェイスがありますがそれらはいくつかのカテゴリに整理されていますテクスチャバッファサンプラなどのリソースや
リソースに対してコマンドを発行するエンコーダエンコーダでのリソースの解釈方法を指示するパイプライン関連リソースをグループ化するバインドグループ GPUで計算を実行するための命令を含むシェーダモジュールといったカテゴリがありますではWebGPUの全体構造を理解したところでデバイスとリソースの作成方法を示して APIの使い方を説明します
デバイスはほとんどのAPI呼び出しのエントリポイントです Metalに詳しい方であれば MTLDeviceと似ていることがわかるでしょう
ページにcanvasがあると仮定してまずcanvas要素を取得します次にnavigator.gpu.requestAdapter() を使ってアダプタを作成し requestDeviceを呼び出して GPUデバイスを作成します
WebGPUはいくつかの拡張機能をサポートしておりその一つが半精度浮動小数点数を使うための shader-f16拡張機能です
これはメモリ帯域幅を削減することでパフォーマンスを向上させますすべてのAppleデバイスでサポートされていますがオプション機能であるため他のプラットフォームで使う際は事前にサポート状況を確認してください
次にconfigureを呼び出しデバイスで canvasのコンテキストを設定しますこれによりcanvasがメモリにリンクされ GPUはこのメモリに書き込みを行います
デバイスの準備ができたのでリソースの作成を開始できます WebGPUではバッファやテクスチャなどを使って処理を行います MetalではこれらはMTLBufferと MTLTextureで表されます
バッファは非常に柔軟性が高く浮動小数点数のベクトルといった単純なものから自分で定義したより複雑なカスタムデータ型まであらゆる種類のデータを保存できますたとえばパーティクル型の複数のインスタンスを保持するバッファがあるとしますバッファには3つのパーティクルが保存されていると考えてみましょう
バッファはデバイスでcreateBufferを呼び出すことで作成されますバッファサイズと使用モードを渡します使用モードによりWebGPUはデータ競合を回避できます APIを追加して複雑にする必要はありません
デバイスにはqueueというプロパティがありバッファやテクスチャの操作に使います
バッファが作成されたら writeBufferを呼び出しバッファオフセット JavaScriptの arrayBufferを渡しその内容を設定します
バッファと同様にテクスチャも基本的にはメモリの塊ですが GPU上の特別なテクスチャレジスタや命令と関連付けられます多くの場合これらは画像データを表し 1次元 2次元 2次元テクスチャの配列 6つの2次元テクスチャの配列であるキューブマップまたは3次元テクスチャとして扱われます
テクスチャを作成するには device.createTextureを呼び出しテクスチャの幅と高さ 2Dテクスチャフォーマットおよび使用モードを渡します
GPUTextureの作成後 device.queue.copyExternal ImageToTextureを使って画像ビットマップ作成した2Dテクスチャ画像サイズを渡すことで画像データを読み込むことができます
多くの場合テクスチャは画像データから作成されGPU上で画像を表しますデバイスとリソースを作成したらパイプラインの作成方法を見てみましょう
パイプラインはGPUでのテクスチャやバッファの使用方法を指定しますパイプラインには2つの種類がありますレンダリングパイプラインは頂点プログラムやフラグメントプログラムで使われ演算パイプラインは演算プログラムで使われますこれらはMetalの MTLRenderPipelineStateオブジェクトと MTLComputePipelineState objects オブジェクトにマップされます
演算パイプラインを作成するには device.createComputePipelineを呼び出しバインドグループまたはシェーダからレイアウトを生成する定数識別子autoを渡します
レイアウトとはバッファテクスチャサンプラが APIからGPUプログラムへ渡される構造化された方法です
パイプラインの作成にはシェーダモジュールが必要ですこれは文字列から作成されます
レンダリングパイプラインも同様の方法で作成され自動レイアウト頂点シェーダモジュールフラグメントシェーダモジュールが使われます
デバイスリソースパイプラインを作成したら WebGPUアプリケーションの基本設定は完了です
WebGPU APIのアーキテクチャについて説明してきました次にシェーダの開発方法を見てみましょう
WGSLと呼ばれる WebGPUシェーディング言語を使うと WebサイトではGPU上で直接実行されるプログラムを簡単に作成できます AppleはWGSLシェーディング言語の設計と実装に深く関わっています WGSLはWebでの安全を考慮し一から構築されています WGSLは3種類のプログラムに対応しています頂点プログラムとフラグメントプログラム演算プログラムです
この簡単なWebGPUの例の作成方法を説明します次のプログラムで構成されます JavaScriptからバッファデータを取得し画面に三角形を作成する頂点プログラムテクスチャの個々の色と深度の値を計算するフラグメントプログラムそして一般的な演算を実行できる演算プログラムですこの演算プログラムでは物理シミュレーションを実行します
頂点プログラムは三角形が表示される画面上の位置を計算します
ここではこの例で使われている 10万個の三角形の輪郭を確認できます
三角形の出力位置を書き込むには @builtin位置属性を使います
これはmain関数の定義と頂点シェーダの入力です位置と色を書き込むだけですではフラグメントシェーダを見てみましょう
頂点ステージで生成した色を取得しその色をテクスチャに保存しますこれは簡単な例ですがここに任意のロジックを挿入して色と深度の値を計算できますストレージテクスチャやバッファへの書き込みアトミック操作なども実行できます WGSLは本当に柔軟ですその柔軟性をさらに見てみましょう演算シェーダを取り上げます
他のプログラムと同様に演算シェーダには JavaScriptからシェーダへの入力である多くのバインディングを含めることができます
演算シェーダは非常に便利です必要な演算を実行し結果をバッファに保存しバッファをJavaScriptコードに読み戻すことができます画面上に描画する必要はありません WebGLでは演算シェーダを使えませんでしたこれが新しいアプリケーションで WebGPUを使うべきもう一つの理由です
演算プログラムには演算シェーダが実行されるグリッドのサイズを定義するワークグループサイズが必要です
グリッド全体における位置を示す global_invocation_idも使いますこれは組み込み変数であり JavaScriptから何も渡さなくても使えます
演算シェーダの本体は重力速度経過時間を適用してパーティクルシミュレーションを更新します
演算シェーダでは必要な演算をすべて実行できますこの演算はGPU上で驚異的なパフォーマンスで並列実行されます
パーティクルが完全にフェードアウトすると確率マップに対して textureLoadを呼び出しパーティクルの新しい位置を選択することでそのパーティクルが再生成される新しい位置が決まります
最後にパーティクル残りの属性が開始値にリセットされパーティクルはバッファに保存されます
すべてを組み合わせると WebGPUロゴの素敵なアニメーションが完成します GPUの並列処理能力を活用することでこれまでWebではできなかったどのような規模の演算でもリアルタイムのパフォーマンスを維持しながら実行できます
素晴らしいですね
WebGPUアプリケーション用のシェーダの開発方法に関する概要を説明しました次に WebGPUの最高のパフォーマンスを引き出す方法を説明します
Appleのプラットフォームで最高の体験を実現するために役立つ覚えておくべきガイドラインがあります優れたパフォーマンスの鍵はメモリ使用量に注意することですつまりメモリ効率の良いデータ型を使いレンダリングコマンドを一度記録して再利用しリソースの数を低く抑えるということですさらに詳しく見ていきましょう
メモリ使用量を最小限に抑えるにはいくつか方法がありますまず半精度浮動小数点数を使いますこれはIEEE標準です WGSLではデータ型はf16と呼ばれますこれによりメモリ使用量が大幅に削減されパフォーマンスが向上しますしかし必ずしも実用的ではありません精度が低くてもアルゴリズムが安定していることを確認しより大きな値を処理できる 32ビット浮動小数点数とは異なりその値が65,000強で最大になることに注意してください特にiOSとvisionOSではデータをf16や圧縮形式で保存するとメモリ不足によりプログラムが終了するのを防ぐことができます半精度浮動小数点を使うにはデバイス作成時とWGSLコードで有効にする必要があります簡単なコード例を使ってその方法を説明します
まずrequestDeviceの呼び出しで shader-f16拡張機能を有効にしてシェーダに「enable f16」ステートメントを追加します
その後でf16スカラ型とベクトル型を先ほどと同様にすべての32ビット型と共に使うことができますデータを半精度で保存しすぐにf32にパック解除しても多くのメモリのメリットを活かしてメモリ不足によりアプリの終了を回避できます
メモリ使用量を最小限に抑えるもう一つの方法は不要なバッファやテクスチャの更新呼び出しを回避することですこれを行うには Metalリソースをサポートするメモリへの JavaScriptからのデータコピーが必要ですインデックスモードや間接使用モードでのバッファ更新は高いコストがかかる場合がありますバッファの再利用前に検証の実行が必要になるためですこれらのバッファは頂点バッファを直接的／間接的にインデックス参照しており WebGPUでは描画コマンドの実行前にバッファへのすべてのオフセットが範囲内にあることを確認する必要があります
こうしたバッファは必要な場合にのみ更新してくださいこれは書き込みまたは読み取り／書き込みアクセスでバインドグループ内のバッファを使う際にも該当しますコード例のようにシェーダ内のリソースを使って書き込まないのであれば特にリソースがインデックスや間接バッファの場合は読み取り専用アクセスを優先してくださいメモリに関するこれらのヒントは Appleのプラットフォームだけでなくすべてのモバイルやデスクトップデバイスでパフォーマンスに大きな影響を与えます次にレンダリングコマンドの再利用について詳しく説明します
再利用の方法にレンダリングバンドルがありますコマンドを1回エンコードしておけば必要なだけ何度でも再利用できます WebGPUではすべての読み書きが適切に定義され範囲内にあることを確認する必要があります通常であれば各フレームで多数の検証が行われますレンダリングバンドルでは検証はバンドル作成時の1回だけでバンドル実行時に毎回実行されませんこのため処理時間の短縮やネイティブに近いパフォーマンスが実現され実際のロジックに余裕が生まれますレンダリングバンドルは簡単に作成できますレンダリングバンドルエンコーダを作成し次に描画関数の呼び出しをエンコードしますレンダリングパスエンコーダと同じです finish()を呼びして再利用向けのバンドルを作ります
バンドルができたので executeBundles()を呼び出してすべての描画コマンドを実行できます必要に応じて何度でも実行できます
内部的にレンダリングバンドルは Metalの間接コマンドバッファにマップされパフォーマンスが同様に改善されますメモリ使用量の問題を解決し検証のオーバーヘッドを削減したのでリソース数の削減について見てみましょう
具体的にはコマンドバッファやレンダリングパスと演算パスバインドグループレイアウトとバインドグループです
コマンドバッファの境界では高速なオンチップメモリと統合されたオンデバイスメモリ間の同期が必要です可能であれば更新ループごとに 1つのコマンドバッファを使うかそれが不可能な場合は一般的な経験則としてコマンドバッファの数をできるだけ少なくしますコマンドバッファを分割する必要があるのは統合メモリに書き戻されたデータが必要になる場合だけです通常そのようなケースはまれです
コマンドバッファとは異なりパスは統合メモリとの同期を必要としませんそれでもレンダーターゲットや演算ディスパッチのサイズによってはかなりのメモリ帯域を消費しますそのためメモリ帯域幅を節約するには可能な限り少ないパスを使うのが適切です
多くの携帯電話と同様にAppleデバイスの GPUはタイルベースの遅延レンダラに基づいていますパスの統合やメモリ帯域の節約のためのベストプラクティスによってサイトやWebアプリはAppleのハードウェア上で優れた性能を発揮できますタイルベースのレンダラの詳細については「Metal Performanceを Appleシリコン搭載のMacに最適化する」と WWDC 2020の「Apple GPUと Metalの併用」をご覧ください
バインドグループに注目してみましょうバインドグループはMetalの引数バッファで実装されておりバインドグループの作成と同時に新しいMTLBufferも作られます動的オフセットを使うと同じレイアウトを共有するが実行時に異なるリソースを使う単一のバインドグループを作成できます動的オフセットを使うにはシェーダモジュールからの自動レイアウトを使わずにカスタムのバインドグループレイアウトを作る必要があります
hasDynamicOffsetを指定し createBindGroupLayoutを呼び出してレイアウトを作り次にそのレイアウトを渡してバインドグループを作ります動的オフセットはsetBindGroupの呼び出しに関係しますバインドグループの動的バッファごとに 1つのオフセットが必要です
このバインドグループで動的オフセットを使うバッファは1つであるため 1つのオフセットがsetBindGroupに渡されます
たとえば10個のバインドグループを作り各グループが64バイトのバッファを持つよりも
640バイトのバッファを1つ作って10個分の 64バイトオブジェクトを表す方が適切ですこれでMetalバッファを9個作らずに済みました
類似したデータを少ないメモリに保存し検証の繰り返しを避け作られるMetalオブジェクトの総数を最小に抑えることで WebGPUで魅力的かつ高効率なWebサイトやWebアプリを作れます WebGPUを使う際はこれらパフォーマンスの考慮事項を意識してください WebGPUを使うとカスタムアルゴリズムを GPU上で直接実行できますこれまでWebからは不可能でした今日からWebGPUをお使いください Mac、iPhone、iPadと Vision Proで動作します最適な使用ガイドラインもご参照ください
WebでのGPUプログラミングの未来に期待しています

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク

関連する章

リソース

関連ビデオ

WWDC25

WWDC20