Metal 4ゲームの知識を深める

Metal 4ゲームの知識を深める

Metal 4の最新機能について学びましょう。新しいレイトレーシング機能は、極めて複雑で視覚的にリッチなワークロードをAppleシリコンに組み込む際に役立ちます。MetalFXを使用して、レンダリングのアップスケール、フレームの補間、シーンのノイズ除去を実行し、ワークロードをスケーリングする方法につい説明します。

このセッションの内容を十分理解できるよう、最初に「Discover Metal 4」および「Explore Metal 4 games」をご覧になることをおすすめします。

関連する章
- 0:00 - イントロダクション
- 2:13 - レンダリングのアップスケール
- 7:17 - フレーム補間
- 13:50 - Metal 4によるレイトレーシング
- 19:25 - アップスケールと同時にノイズ除去
- 26:08 - 次のステップ
リソース
- - HDビデオ
  - SDビデオ
関連ビデオ

WWDC25
WWDC23
- Metalレイトレーシングのガイド
WWDC22
- MetalFX Upscalingでパフォーマンスを向上させる
こんにちは Matias Koskelaです今日は Appleプラットフォームでの高度なゲームやプロ向けアプリの開発をさらに前進させるうえで役立つ手法とベストプラクティスを紹介します
このビデオの前に Metal 4の概要を説明する「Metal 4の概要」と最新版のMetalの使い方を紹介する「Metal 4ゲームの詳細」をご覧になることをお勧めしますこの「Metal 4ゲームの知識を深める」は Metal 4ゲームシリーズの第2部ですまた Metal 4による機械学習とグラフィックスの統合について説明しているビデオもあります
ご覧の「サイバーパンク2077」などのゲームではレンダリング品質の向上によりリアルさが高まっていますこれによりピクセルあたりの処理負荷が高まり高解像度高フレームレートの難易度が上がっています Metalを使えば iPhoneからMacまで幅広いAppleプラットフォーム向けに高品質なフレームのレンダリングができますラスタ化やレイトレーシングなどの手法を使用する場合 Metalには使いやすいAPIがあります
MetalFX Upscalingを使用すれば高解像度高フレームレートでもワークロードのスケーリングができます
さらに上を目指すなら新しいMetalFXフレームインターポレータを利用できます
サイバーパンク2077などの最新ゲームはリアルタイムのパストレーシングで現実感を出していますこのようなリアルタイムのレンダリングの機能強化は Metal 4の優れた新機能によって実現可能になっていますレイトレーシングの機能強化や新しい MetalFXのノイズ除去アップスケーラがありゲーム内で必要なレイの数を減らしてスケーリングを容易にします
MetalFXのアップスケーラは高解像度高フレームレートの実現に役立ちます新しいMetalFXのフレームインターポレータでよりスムーズなゲームプレイを実現できます新しいMetal 4のレイトレーシング機能でパフォーマンスがさらに向上し MetalFXのノイズ除去アップスケーラと組み合わせて使用できます
アップスケーリングは広く使用されており多くのシナリオでパフォーマンス向上に役立ちます MetalFXには機械学習ベースのアップスケーラがあり 2022年からAppleプラットフォームの一部となっていますが毎年改善が重ねられています
MetalFX Upscalingに新しいツールと手法が追加されておりそれらを使用するとゲームの品質とパフォーマンスの向上に役立ちます最初のステップは時間アップスケーリングを適切にゲームに適用することです露出の入力パラメータの適切な使用もそのプロセスの一部です動的解像度によりパフォーマンスをさらに向上させることができますリアクティビティヒントを使用して特定のシナリオの品質を向上させることもできます
一般的なレンダリングパイプラインを考えます最初にフレームのラスタ化またはレイトレーシングが行われ
その後モーションブラーなどの効果の後処理が実行されます次に露出とトーンマッピングが適用され UIがレンダリングされ最終的にフレームがプレイヤーに表示されます
MetalFX Upscalingを追加するにはジッタ処理済みのレンダリングの後後処理の前が最適ですアップスケーラの組み込みの詳細は「MetalFX Upscalingでパフォーマンスを向上させる」をご覧ください今年はゲームのパフォーマンス向上に役立つツールや機能がさらに追加されます
高品質を実現するにはアップスケーラに適正な露出値を設定することが重要です
大きく誤った値を渡すとちらつきやゴーストが生じる可能性があります
レンダリングパイプラインではアップスケーラの入力色と出力色はリニア色空間にありますアップスケーラは露出と呼ばれるパラメータを取ります露出に色入力を乗算することでトーンマッピングにおいて使用される露出におおよそ適した輝度が得られます
これはプレイヤーに表示される際のフレームの目に見える特徴をアップスケーラが理解するのに役立ちますこの値はアップスケーラにとってのヒントに過ぎずこれによって出力の輝度は変更されません MetalFXにはアップスケーラに送信する露出の入力値の調整に役立つ新しいツールが含まれています
これは露出デバッガと呼ばれます有効にするには環境変数 MTLFX_EXPOSURE_TOOL_ENABLEDを設定しますこれでアップスケーラによりフレーム上に灰色のチェッカー盤がレンダリングされ露出値の逆数が適用されます
ディスプレイ上でパイプラインの最終段階でこのパターンがどう見えるかを確認できます
アップスケーラに渡す露出値がトーンマッパーと合っていない場合チェッカー盤の表示が暗すぎたり明るすぎたりします
ゲームの実行中にチェッカー盤の輝度が変わる場合も不整合があることの表れです
露出値が適正であれば格子のパターンは均一なミッドグレーになります
ゲームの複雑さがシーンによって大きく変化する場合があるため多くのゲームで動的解像度レンダリングが採用されています
フレームが複雑になるほどアップスケーラの入力解像度が下がりますさらに課題が生じた場合はゲームにおいて動的にさらなる入力解像度の引き下げが行われます MetalFXの時間アップスケーラで動的サイズの入力がサポートされすべてのフレームで同じサイズの入力を渡す必要がなくなりましたスケーリングの品質を最大限に高めるには必要でない限り最大スケールを 2倍より大きな設定にしないようにします
MetalFXの時間アップスケーラのもう1つの新機能はピクセルのリアクティビティに関するヒントをアップスケーラに提供するオプションの機能です
ゲームで透過エフェクトまたは花火のようなパーティクルをレンダリングする場合モーションテクスチャや深度テクスチャにはレンダリングされません
スケーリング比が高く入力解像度が低いとパーティクルが背景に溶け込んで見えたり
ゴーストが見えたりすることがありますこれはレンダリングにおいてパーティクルがテクスチャのディテールや鏡面ハイライトのように表示されることがあるためです
デベロッパがパーティクルの処理をコントロールできるようにアップスケーラがリアクティブマスクという新しいオプションの入力を受け付けるようになりますこのマスクではエフェクトの対象領域をマーキングできます
使用するにはシェーダでリアクティブマスクの値を設定します例えば G-Bufferのマテリアルタイプに基づく値を使用しますホストコードでエンコーディングの前に時間アップスケーラオブジェクトにテクスチャをバインドします
リアクティブマスクを使用するのは入力解像度を高くする方法を取れない場合のみにしてくださいまた別のアップスケーラ用に調整されたリアクティブマスク使用しないでください MetalFXのアップスケーラ出力で適切に表示される領域がマスクされる可能性があるためですアップスケーラを使用すると高品質で優れたパフォーマンスが得られますしかしより高いリフレッシュレートが必要な場合があります今年 MetalFXに全Appleプラットフォーム対応のフレーム補間が導入されます
MetalFXのフレーム補間をゲームに組み込むのはとても簡単ですまず補間オブジェクトを設定し補間されたフレームにUIをレンダリングしフレームを適切に表示しペースを調整します
フレーム補間はレンダリング済みのピクセルを利用するのに役立ちスムーズなゲーム体験を実現できます
これは同じレンダリングパイプラインですが今回はUIレンダリングがありません
トーンマッピングの後でフレームを補間します解像度とフレームレートを高くする場合は同じパイプラインでアップスケーリングと補間処理の両方を行うことができます
MetalFXのフレーム補間を使用する場合モーションベクトルと深度の 2つのフレームがレンダリングされますアップスケーラを採用している場合同じモーションベクトルと深度を使用できますモーションテクスチャのオブジェクトは色がありますが右に移動しているためですこれらの入力により MetalFXでこれら2つのレンダリングされたフレームの間にフレームが生成されます
補間の設定をして総合的なパフォーマンスを向上させるにはアップスケールオブジェクトを補間記述子に渡しますインターポレータを作成する際モーションスケールと深度の規則を定義します次に必要な5つのテクスチャすべてをインターポレータにバインドします
補間されたフレームの取得を開始したら UIのレンダリングについて考えます
通常のレンダリングパイプラインでは各フレームの最後にUIがレンダリングされその位置はフレーム補間が行われるのとほぼ同じ位置です
UIレンダリングで要素がフレームにアルファブレンドされます各フレームでテキストの変化があってもモーションテクスチャや深度テクスチャは変更されません
フレーム補間を有効にして見栄えの良いUIを実現するにはいくつかの方法があります
フレーム補間を使用して UIをレンダリングするためによく使われる手法は3つです合成UIとオフスクリーンUI フレームごとのUIです
合成UIではインターポレータは前のフレームN - 1に加え UIなしの現在のフレームNと UIありの同じフレームNを取得します合成UIは最も簡単に導入できますこのモードではフレームインターポレータで UIありと UIなしのテクスチャの差分がわかりますこのように補間後のフレームでの UIの削除と適切な位置への配置を試行することができますただしすでにブレンドされたピクセルのブレンド解除を完璧に行うことはできませんそこでそのためには他のいずれかの方法を使用します
例えばオフスクリーンUIでは UIが完全に独立したUIテクスチャにレンダリングされます
インターポレータはそれを補間後のフレームに追加しますこれをインターポレータの入力にすると読み込みと保存の負担から解放されますインターポレータがUIを出力に書き込むことができるためです
最後にフレームごとのUIでは UI処理はデベロッパのコードに依存し必要なコードの変更量が最も大きくなる可能性がありますただしこの場合補間後のフレームの UIを更新することもできプレイヤーにとって最もスムーズな体験が得られます
これで補間後のフレームでも見栄えの良いUIを表示できますここで補間されたフレームとネイティブにレンダリングされたフレームの両方を正しい順序正しい間隔で表示する方法を考える必要があります
通常ゲームのレンダリングは RenderスレッドとGPU Presentスレッドで構成されます Renderスレッドで GPUと Presentationに必要な処理の準備を行いますフレームがレンダリングされる際インターポレータがレンダリングされたフレームと前のフレームの間にタイムスタンプ付きのフレームを生成できますこれによりゲームで補間されたフレームを表示できます表示間隔の経過後新しくレンダリングされたフレームを表示できます
この間隔の長さを一貫した形で決定するのは難しい場合がありますしかしゲームのペーシングを適切に行うためには必要なことです
新しいMetal HUDはペーシングがずれているタイミングの特定に役立つ優れたツールです有効化の方法の詳細については「ゲームをレベルアップさせる方法」をご覧くださいこのツールの優れた新機能についても説明しています
フレーム間隔のグラフをご覧ください横軸は時間で縦軸はフレーム間隔の長さです
グラフが不規則なパターンを示していてフレームの更新間隔が長いことを示すスパイクがランダムに見える場合ペーシングがずれています
もう1つペーシングがずれていることがわかるのはフレーム間隔のヒストグラムバケットが 2つ以上ある場合です
ペーシングが修正されるとターゲットディスプレイのリフレッシュレートに合っていれば平坦な線が表示されます下回っていれば一定のパターンの繰り返しになりヒストグラムバケットが最大2つ存在します
その処理を正しく行う方法の例がこちらで便利なpresentHelperクラスを使用します描画のループではすべてが低解像度のテクスチャにレンダリングされ MetalFXアップスケーラでアップスケールされます UIのレンダリング開始をヘルパーに指示した後 UIがレンダリングされます最後にインターポレータの呼び出しが presentHelperクラスで処理されます実装の詳細についてはサンプルコードを確認してください
ペーシングに加えてデルタタイムとカメラのパラメータを適切に設定することも重要です全パラメータが適正でないとオクルージョン領域にアーティファクトが生じかねません
適正なパラメータを使用するとオクルージョン領域が正しく処理されます
これはインターポレータで実際のシミュレーションのモーションの長さに合わせてモーションベクトルを調整できるようになったためです
すべての入力とペーシングが適切になると補間されたフレームが適切に表示されますまた補間の入力は適正な高さのフレームレートにする必要があります補間前に少なくとも30フレーム/秒となるようにします
アップスケーラとフレームインターポレータはほぼどのようなレンダリングスタイルのスケーリングにも汎用的に使える手法ですこれに対してレイトレーシングは通常ハイエンドのレンダリングシナリオで使用されます Metal 4では新しいレイトレーシング機能が多数追加されておりアクセラレーション構造のビルドや交差関数に関連するものがあります
Metalのレイトレーシングを使った Apple プラットフォーム向けゲームが増えています
このデモではリアルなライティングでドローンが床面に反射する様子が見えますレイトレーシングの手法や複雑さはゲームごとに異なります
そのため交差関数の管理の柔軟性を高めアクセラレーション構造のビルドのオプションを増やす必要があります
Metal 4ではこの2つを効率化するための新機能が導入されています
Metalのレイトレーシングの基本事項アクセラレーション構造のビルドや交差関数の詳細については「Metalレイトレーシングのガイド」をご覧ください
1本の木の周りに草が生えている単純なシーンのレイトレーシングを考えます
このようにシンプルなシーンでも複数種類のマテリアルがありますアルファテストされた木の葉や不透明な木の幹などです
そのためさまざまなレイトレーシングの交差関数が必要になります主光線用とシャドウレイ用で別々です
交差関数バッファは引数バッファでありシーンの交差関数へのハンドルが格納されます
例えば主光線をトレーシングするために草と木の葉で同様の機能が必要な場合があります交差関数バッファを使用することにより同じ交差関数を指す複数のエントリを簡単に持つことができます
交差関数バッファのインデックスを設定するために必要なことは 1つはインスタンスレベルでの状態の設定でこの例のシーンには2つのインスタンスがありますもう1つはジオメトリレベルでこの場合草には1つだけ木には2つのジオメトリがありますインターセクタでは木の幹に当たるシャドウレイにはどの交差関数を使用するかの情報が必要です
インスタンスのアクセラレーション構造を作成する際各インスタンス記述子で intersectionFunctionTableOffsetを指定します
プリミティブアクセラレーション構造をビルドする際もジオメトリ記述子に intersectionFunctionTableOffsetを設定します
シェーダでインターセクタを設定する際には "intersection_function_buffer"をタグに追加します
次にジオメトリの乗数をインターセクタに設定します乗数は交差関数バッファ内の光線の種類の数です
この例ではジオメトリごとに 2種類の光線がありますしたがってここでの正しい値は2ですその2種類の光線のうちトレーシングする光線の種類に対応するベースインデックスの指定が必要ですこの例で主光線をトレーシングするためのベースインデックスは0になります
シャドウをトレーシングする場合のベースIDは1です
木の幹のインスタンスとジオメトリの影響ジオメトリの乗数およびシャドウレイのベースIDを組み合わせると目的の交差関数を指すポインタが得られます
intersectメソッドに交差関数バッファの引数を渡してコードを完成させます
バッファサイズおよびストライドを指定することにより従来の他のAPIの場合と比較して柔軟性が高くなります DirectXから移植する場合はシェーダバインディングテーブルを Metalの交差関数バッファに簡単に移植できます
DirectXでは光線を送出する記述子を作成する際に交差関数バッファのアドレスとストライドをホストに設定します Metalではこれをシェーダで設定します SIMDグループのすべてのスレッドで同じ値を設定する必要がありそうしないと動作が未定義になります
光線タイプのインデックスとジオメトリの乗数は DirectXとMetalで同じように扱われますアプリではシェーダでこれらを設定できます DirectXとMetalではインスタンスのアクセラレーション構造の作成時にインスタンスごとのインスタンスオフセットインデックスを設定しますただしジオメトリオフセットインデックスは DirectXでは自動的に生成されますが Metalではジオメトリオフセットをデベロッパが柔軟に設定できます
レイトレーシングが用いられたゲームのMetalへの移植が交差関数バッファにより大幅に改善されますデベロッパの準備が整えば Metal 4ではアクセラレーション構造のビルド方法を最適化することもできます
Metalではすでにアクセラレーション構造のビルドに関してさまざまな制御ができましたデフォルトの動作に加えリフィットのための最適化ができ大規模なシーンを実現したりアクセラレーション構造を迅速にビルドしたりできます今年はさらに柔軟性が高まり高速交差を選択してレイトレーシングにかかる時間を短縮できます
またアクセラレーション構造のメモリ使用量を最小限に抑える選択をすることもできます
使用のフラグはアクセラレーション構造のビルドごとに設定できすべてのアクセラレーション構造で同じにする必要はありません
新しいアクセラレーション構造のフラグによりレイトレーシングをレンダリングパイプラインに含められよりニーズに合わせやすくなります確率的影響に対して使用する場合はデノイザが必要ですそして MetalFXアップスケーラにノイズ除去を含められるようになりました
単純なハイブリッドのレイトレーシングから複雑なパストレーシングまでリアルタイムレイトレーシングが常に使用されることが増えていますこの画像の例ではレイトレーシングによってすべてがより地について見え
反射が大幅に改善していますレイトレーシングで品質とパフォーマンスの最適なトレードオフを実現するにはノイズ除去を使用する光線を少なくします
新しいMetalFX APIを使用すればアップスケーリングとノイズ除去を組み合わせるにはいくつかの入力を追加するだけで簡単ですただしノイズ除去アップスケーラをより強化し入力を追加し詳細情報を正しく処理することによりさらに品質を向上させることができます
アップスケーラとデノイザを組み合わせる前に従来はどのような手順で行われていたかを確認しましょう
通常のリアルタイムのインタラクティブなレイトレーシングレンダリングパイプラインでは複数のエフェクトを別々にトレーシングし別々にノイズ除去を行い結果を1つのノイズのないジッタ処理済みテクスチャにまとめますそれをMetalFXの時間アップスケーラでアップスケールしさらに後処理を行います
従来のデノイザではシーンごとに個別のパラメータ調整が必要でしたこちらはパラメータの調整を行わない場合のノイズ除去の一例ですこれに対して MetalFXのノイズ除去アップスケーラではパラメータを調整する必要はありませんこれはメインのレンダリングの後後処理の直前に適用されます MetalFXの機械学習を活用した手法により幅広いシナリオで堅牢性とパフォーマンスに優れた高品質のノイズ除去とアップスケーリングが得られます組み込むのも簡単ですノイズ除去アップスケーラを組み込むうえでアップスケーラの組み込みはよい出発点となりますここではアップスケーラへの入力を確認します色モーション深度です新しい結合APIはアップスケーラAPIのスーパーセットです
新しいAPIではノイズのない補助バッファを追加する必要がありますこれが左に表示されていますほとんどがすでにアプリで使用されている可能性がありますそれぞれについて詳しく見ていきましょう
新しい入力の1つ目は法線です最適な結果を得るにはこれらがワールド空間内にある必要があります
次はディフューズアルベドですこれはマテリアルの拡散放射輝度のベースカラーです
次の粗さは表面がどれだけ滑らかかまたは粗いかを表しリニア値になっています最後の入力は鏡面アルベドですレンダリングの鏡面反射輝度のノイズのない近似値になりますフレネル成分を含んでいる必要がありますコードでこれらの新しい入力を追加するのは簡単です
一般的な時間アップスケーラを作成するのに必要なコードは10行程度ですノイズ除去バージョンを有効にするにはスケーラの種類を変更し付加的なテクスチャの種類を追加する必要があります
同様にスケーラをエンコードする場合これはアップスケーラ呼び出しになりますここで唯一の違いは追加の入力テクスチャをバインドする必要があることです
デノイザの基本的な使い方を設定した後さらに改善するにはいくつかのオプションの入力を使用し組み込みに関する一般的な落とし穴を回避します
品質向上に利用できるオプションの入力テクスチャがいくつかあります
1つ目は鏡面反射到達距離ですこれはピクセルの最初の可視点から次に跳ね返る位置までの光線の長さです次にノイズ除去強度マスクですこれを使用することでノイズ除去が不要な領域のマーキングができます最後は透明オーバーレイでアルファチャネルをもとに色をブレンドするために使用しますアップスケールのみでノイズ除去されません
組み込みで最も一般的な問題は入力のノイズの多さですこれを修正するには標準的なパストレーシングのサンプリングに対する改善をすべて行う必要があります NEE（Next-Event-Estimation）や重点サンプリング法などですまた光源の多い大規模なシーンでは実際に対象領域に影響する光源のサンプリングを主に行うようにします
レイトレーシングのサンプリング品質に関連するもう1つの課題が相関を持つ乱数です相関が強すぎる乱数ジェネレータを使用すべきではありません空間相関と時間相関のいずれもアーティファクトにつながりかねません
補助データに関連する落とし穴の1つが金属物質のディフューズアルベドに関するものですこの例ではチェスの駒が金属製であるため鏡面アルベドで色が表現されていますこの場合チェスの駒にディフューズアルベドを使用すると暗くなります
最後に法線関連のよくある落とし穴があります MetalFXのノイズ除去アップスケーラでノイズ除去判定を適切に行うには法線がワールド空間にあることが前提ですテクスチャのデータ型は符号ビットを持つものを使用する必要がありますそうでないとカメラの向きによっては最適な品質が得られない可能性あります
これらの項目すべてに対応することで適切にノイズ除去されアップスケールされたフレームが得られます
1つのレンダラにこれらの機能をすべて搭載したらどうなるか見てみましょう
同僚がまとめてくれたデモで先ほどお話したレンダリングパイプラインを使ったものがありますこのデモでは新しいMetal 4のレイトレーシング機能を使ってレンダリングのレイトレーシング部分を最適化しています MetalFXのノイズ除去アップスケーラでノイズ除去とアップスケーリングを同時に行います露出とトーンマッピングの後 MetalFXフレームインターポレータでフレームを補間します
このデモではグローバルイルミネーション反射シャドウアンビエントオクルージョンなどの高度なレイトレーシングの照明効果を使用して 2台のロボットがチェスをするシーンを生き生きと描き出しています
右上のビューは MetalFXの処理を行う前のレンダリングです他のビューでは他のMetalFXの入力が使用されています
MetalFXのノイズ除去アップスケーラとフレームインターポレータの両方を採用していますデノイザを使用すると最終的な見た目をすべて手動で調整する手間がなくなりレンダリングが大幅に楽になります
すでにMetalFXアップスケーラを組み込んだことがある場合はフレーム補間へとアップグレードするよいチャンスです MetalFXが初めての場合はまずアップスケーラから確認してください次にレイトレーシングのエフェクトに今日説明した交差関数バッファなどのベストプラクティスが用いられていることを確認しますそしてノイズ除去アップスケーラでゲームの光線量を減らします
皆さんのゲームで新機能を実際にご活用いただき Metal 4を使って何を作られるのか楽しみにしていますご視聴ありがとうございました

// Create reactive mask setup in shader
out.reactivity = m_material_id == eRain ? (m_material_id == eSpark ? 1.0f : 0.0f) : 0.8f;

// Set reactive mask before encoding upscaler on host
temporalUpscaler.reactiveMask = reactiveMaskTexture;

8:35 - MetalFX Frame Interpolator

// Create and configure the interpolator descriptor
MTLFXFrameInterpolatorDescriptor* desc = [MTLFXFrameInterpolatorDescriptor new];
desc.scaler = temporalScaler;
// ...

// Create the effect and configure your effect
id<MTLFXFrameInterpolator> interpolator = [desc newFrameInterpolatorWithDevice:device];
interpolator.motionVectorScaleX = mvecScaleX;
interpolator.motionVectorScaleY = mvecScaleY;
interpolator.depthReversed = YES;

// Set input textures
interpolator.colorTexture = colorTexture;
interpolator.prevColorTexture = prevColorTexture;
interpolator.depthTexture = depthTexture;
interpolator.motionTexture = motionTexture;
interpolator.outputTexture = outputTexture;

12:45 - Interpolator present helper class

#include <thread>
#include <mutex>
#include <sys/event.h>
#include <mach/mach_time.h>


class PresentThread
{
    int m_timerQueue;
    std::thread m_encodingThread, m_pacingThread;
    std::mutex m_mutex;
    std::condition_variable m_scheduleCV, m_threadCV, m_pacingCV;
    float m_minDuration;
    
    uint32_t m_width, m_height;
    MTLPixelFormat m_pixelFormat;
    
    const static uint32_t kNumBuffers = 3;
    uint32_t m_bufferIndex, m_inputIndex;
    bool m_renderingUI, m_presentsPending;
    
    CAMetalLayer *m_metalLayer;
    id<MTLCommandQueue> m_presentQueue;

    id<MTLEvent> m_event;
    id<MTLSharedEvent> m_paceEvent, m_paceEvent2;
    uint64_t m_eventValue;
    uint32_t m_paceCount;
    
    int32_t m_numQueued, m_framesInFlight;
    
    id<MTLTexture> m_backBuffers[kNumBuffers];
    id<MTLTexture> m_interpolationOutputs[kNumBuffers];
    id<MTLTexture> m_interpolationInputs[2];
    id<MTLRenderPipelineState> m_copyPipeline;
    
    std::function<void(id<MTLRenderCommandEncoder>)> m_uiCallback = nullptr;
    
    void PresentThreadFunction();
    void PacingThreadFunction();
    
    void CopyTexture(id<MTLCommandBuffer> commandBuffer, id<MTLTexture> dest, id<MTLTexture> src, NSString *label);

public:
    
    PresentThread(float minDuration, CAMetalLayer *metalLayer);
    ~PresentThread()
    {
        std::unique_lock<std::mutex> lock(m_mutex);
        m_numQueued = -1;
        m_threadCV.notify_one();
        m_encodingThread.join();
    }
    void StartFrame(id<MTLCommandBuffer> commandBuffer)
    {
        [commandBuffer encodeWaitForEvent:m_event value:m_eventValue++];
    }

    void StartUI(id<MTLCommandBuffer> commandBuffer)
    {
        assert(m_uiCallback == nullptr);
        if(!m_renderingUI)
        {
            CopyTexture(commandBuffer, m_interpolationInputs[m_inputIndex], m_backBuffers[m_bufferIndex], @"Copy HUDLESS");
            m_renderingUI = true;
        }
    }
    
    void Present(id<MTLFXFrameInterpolator> frameInterpolator, id<MTLCommandQueue> queue);
    
    id<MTLTexture> GetBackBuffer()
    {
        return m_backBuffers[m_bufferIndex];
    }

    void Resize(uint32_t width, uint32_t height, MTLPixelFormat pixelFormat);
    
    void DrainPendingPresents()
    {
        std::unique_lock<std::mutex> lock(m_mutex);
        while(m_presentsPending)
            m_scheduleCV.wait(lock);
    }
    
    bool UICallbackEnabled() const
    {
        return m_uiCallback != nullptr;
    }
    
    void SetUICallback(std::function<void(id<MTLRenderCommandEncoder>)> callback)
    {
        m_uiCallback = callback;
    }
    
};

PresentThread::PresentThread(float minDuration, CAMetalLayer *metalLayer)
    : m_encodingThread(&PresentThread::PresentThreadFunction, this)
    , m_pacingThread(&PresentThread::PacingThreadFunction, this)
    , m_minDuration(minDuration)
    , m_numQueued(0)
    , m_metalLayer(metalLayer)
    , m_inputIndex(0u)
    , m_bufferIndex(0u)
    , m_renderingUI(false)
    , m_presentsPending(false)
    , m_framesInFlight(0)
    , m_paceCount(0)
    , m_eventValue(0)
{
    id<MTLDevice> device = metalLayer.device;
    m_presentQueue = [device newCommandQueue];
    m_presentQueue.label = @"presentQ";
    m_timerQueue = kqueue();
    
    metalLayer.maximumDrawableCount = 3;
    
    Resize(metalLayer.drawableSize.width, metalLayer.drawableSize.height, metalLayer.pixelFormat);
    
    m_event = [device newEvent];
    m_paceEvent = [device newSharedEvent];
	m_paceEvent2 = [device newSharedEvent];
}


void PresentThread::Present(id<MTLFXFrameInterpolator> frameInterpolator, id<MTLCommandQueue> queue)
{
    id<MTLCommandBuffer> commandBuffer = [queue commandBuffer];
    
    if(m_renderingUI)
    {
        frameInterpolator.colorTexture = m_interpolationInputs[m_inputIndex];
        frameInterpolator.prevColorTexture = m_interpolationInputs[m_inputIndex^1];
        frameInterpolator.uiTexture = m_backBuffers[m_bufferIndex];
    }
    else
    {
        frameInterpolator.colorTexture = m_backBuffers[m_bufferIndex];
        frameInterpolator.prevColorTexture = m_backBuffers[(m_bufferIndex + kNumBuffers - 1) % kNumBuffers];
        frameInterpolator.uiTexture = nullptr;
    }
    
    frameInterpolator.outputTexture = m_interpolationOutputs[m_bufferIndex];

    [frameInterpolator encodeToCommandBuffer:commandBuffer];
    [commandBuffer addCompletedHandler:^(id<MTLCommandBuffer> _Nonnull) {
        std::unique_lock<std::mutex> lock(m_mutex);
        m_framesInFlight--;
        m_scheduleCV.notify_one();
        m_paceCount++;
        m_pacingCV.notify_one();
    }];
    [commandBuffer encodeSignalEvent:m_event value:m_eventValue++];
    [commandBuffer commit];

    std::unique_lock<std::mutex> lock(m_mutex);
    m_framesInFlight++;
    m_numQueued++;
    m_presentsPending = true;
    m_threadCV.notify_one();
    while((m_framesInFlight >= 2) || (m_numQueued >= 2))
        m_scheduleCV.wait(lock);

    m_bufferIndex = (m_bufferIndex + 1) % kNumBuffers;
    m_inputIndex = m_inputIndex^1u;
    m_renderingUI = false;
}

void PresentThread::CopyTexture(id<MTLCommandBuffer> commandBuffer, id<MTLTexture> dest, id<MTLTexture> src, NSString *label)
{
    MTLRenderPassDescriptor *desc = [MTLRenderPassDescriptor new];
    desc.colorAttachments[0].texture = dest;
    desc.colorAttachments[0].loadAction = MTLLoadActionDontCare;
    desc.colorAttachments[0].storeAction = MTLStoreActionStore;
    id<MTLRenderCommandEncoder> renderEncoder = [commandBuffer renderCommandEncoderWithDescriptor:desc];
    [renderEncoder setFragmentTexture:src atIndex:0];
    [renderEncoder setRenderPipelineState:m_copyPipeline];
    [renderEncoder drawPrimitives:MTLPrimitiveTypeTriangle vertexStart:0 vertexCount:3];
    if(m_uiCallback)
        m_uiCallback(renderEncoder);
    renderEncoder.label = label;
    [renderEncoder endEncoding];
}


void PresentThread::PacingThreadFunction()
{
    NSThread *thread = [NSThread currentThread];
    [thread setName:@"PacingThread"];
    [thread setQualityOfService:NSQualityOfServiceUserInteractive];
    [thread setThreadPriority:1.f];
    
    mach_timebase_info_data_t info;
    mach_timebase_info(&info);
    
    // maximum delta (0.1ms) in machtime units
    const uint64_t maxDeltaInNanoSecs = 100000000;
    const uint64_t maxDelta = maxDeltaInNanoSecs * info.denom / info.numer;
    
    uint64_t time = mach_absolute_time();
    
    uint64_t paceEventValue = 0;
    
    for(;;)
    {
        std::unique_lock<std::mutex> lock(m_mutex);
        while(m_paceCount == 0)
            m_pacingCV.wait(lock);
        m_paceCount--;
        lock.unlock();
        
        // we get signal...
        const uint64_t prevTime = time;
        time = mach_absolute_time();
		m_paceEvent.signaledValue = ++paceEventValue;

        const uint64_t delta = std::min(time - prevTime, maxDelta);
        const uint64_t timeStamp = time + ((delta*31)>>6);
        
        struct kevent64_s timerEvent, eventOut;
        struct timespec timeout;
        timeout.tv_nsec = maxDeltaInNanoSecs;
        timeout.tv_sec = 0;
        EV_SET64(&timerEvent,
                 0,
                 EVFILT_TIMER,
                 EV_ADD | EV_ONESHOT | EV_ENABLE,
                 NOTE_CRITICAL | NOTE_LEEWAY | NOTE_MACHTIME | NOTE_ABSOLUTE,
                 timeStamp,
                 0,
                 0,
                 0);
        
        kevent64(m_timerQueue, &timerEvent, 1, &eventOut, 1, 0, &timeout);
        
        // main screen turn on...
        m_paceEvent2.signaledValue = ++paceEventValue;
    }
}


void PresentThread::PresentThreadFunction()
{
    NSThread *thread = [NSThread currentThread];
    [thread setName:@"PresentThread"];
    [thread setQualityOfService:NSQualityOfServiceUserInteractive];
    [thread setThreadPriority:1.f];
    

    uint64_t eventValue = 0;
    uint32_t bufferIndex = 0;

    uint64_t paceEventValue = 0;

    for(;;)
    {
        std::unique_lock<std::mutex> lock(m_mutex);
        
        if(m_numQueued == 0)
        {
            m_presentsPending = false;
            m_scheduleCV.notify_one();
        }
        
        while(m_numQueued == 0)
            m_threadCV.wait(lock);
        
        if(m_numQueued < 0)
            break;
        lock.unlock();

        @autoreleasepool
        {
            id<CAMetalDrawable> drawable = [m_metalLayer nextDrawable];

			lock.lock();
			m_numQueued--;
			m_scheduleCV.notify_one();
			lock.unlock();

            id<MTLCommandBuffer> commandBuffer = [m_presentQueue commandBuffer];
            [commandBuffer encodeWaitForEvent:m_event value:++eventValue];
            CopyTexture(commandBuffer, drawable.texture, m_interpolationOutputs[bufferIndex], @"Copy Interpolated");
            [commandBuffer encodeSignalEvent:m_event value:++eventValue];
			[commandBuffer encodeWaitForEvent:m_paceEvent value:++paceEventValue];

            if(m_minDuration > 0.f)
                [commandBuffer presentDrawable:drawable afterMinimumDuration:m_minDuration];
            else
                [commandBuffer presentDrawable:drawable];
            [commandBuffer commit];
        }
        
        @autoreleasepool
        {
            id<MTLCommandBuffer> commandBuffer = [m_presentQueue commandBuffer];
            id<CAMetalDrawable> drawable = [m_metalLayer nextDrawable];
            CopyTexture(commandBuffer, drawable.texture, m_backBuffers[bufferIndex], @"Copy Rendered");
			[commandBuffer encodeWaitForEvent:m_paceEvent2 value:++paceEventValue];
            if(m_minDuration > 0.f)
                [commandBuffer presentDrawable:drawable afterMinimumDuration:m_minDuration];
            else
                [commandBuffer presentDrawable:drawable];
            [commandBuffer commit];
        }
        
        bufferIndex = (bufferIndex + 1) % kNumBuffers;
    }
}

void PresentThread::Resize(uint32_t width, uint32_t height, MTLPixelFormat pixelFormat)
{
    if((m_width != width) || (m_height != height) || (m_pixelFormat != pixelFormat))
    {
        id<MTLDevice> device = m_metalLayer.device;

        if(m_pixelFormat != pixelFormat)
        {
            id<MTLLibrary> lib = [device newDefaultLibrary];
            MTLRenderPipelineDescriptor *pipelineDesc = [MTLRenderPipelineDescriptor new];
            pipelineDesc.vertexFunction = [lib newFunctionWithName:@"FSQ_VS_V4T2"];
            pipelineDesc.fragmentFunction = [lib newFunctionWithName:@"FSQ_simpleCopy"];
            pipelineDesc.colorAttachments[0].pixelFormat = pixelFormat;
            m_copyPipeline = [device newRenderPipelineStateWithDescriptor:pipelineDesc error:nil];
            m_pixelFormat = pixelFormat;
        }
        
        DrainPendingPresents();
        
        m_width = width;
		m_height = height;
        
        MTLTextureDescriptor *texDesc = [MTLTextureDescriptor texture2DDescriptorWithPixelFormat:pixelFormat width:width height:height mipmapped:NO];
		texDesc.storageMode = MTLStorageModePrivate;
        for(uint32_t i = 0; i < kNumBuffers; i++)
        {
            texDesc.usage = MTLTextureUsageShaderRead|MTLTextureUsageShaderWrite|MTLTextureUsageRenderTarget;
            m_backBuffers[i] = [device newTextureWithDescriptor:texDesc];
            texDesc.usage = MTLTextureUsageShaderRead|MTLTextureUsageRenderTarget;
            m_interpolationOutputs[i] = [device newTextureWithDescriptor:texDesc];
        }
        texDesc.usage = MTLTextureUsageShaderRead|MTLTextureUsageRenderTarget;
        m_interpolationInputs[0] = [device newTextureWithDescriptor:texDesc];
        m_interpolationInputs[1] = [device newTextureWithDescriptor:texDesc];

    }
}

13:00 - Set intersection function table offset

// Set intersection function table offset on host-side geometry descriptors
NSMutableArray<MTLAccelerationStructureGeometryDescriptor *> *geomDescs ...;
for (auto g = 0; g < geomList.size(); ++g)
{
    MTLAccelerationStructureGeometryDescriptor *descriptor = ...;
    descriptor.intersectionFunctionTableOffset = g;
    ...
    [geomDescs addObject:descriptor];
}

13:01 - Set up the intersector

// Set up the intersector
metal::raytracing::intersector<intersection_function_buffer, instancing, triangle> trace;
trace.set_geometry_multiplier(2); // Number of ray types, defaults to 1
trace.set_base_id(1);             // Set ray type index, defaults to 0

13:02 - Ray trace intersection function buffers

// Ray trace intersection function buffers

// Set up intersection function buffer arguments
intersection_function_buffer_arguments ifb_arguments;
ifb_arguments.intersection_function_buffer = raytracingResources.ifbBuffer;
ifb_arguments.intersection_function_buffer_size = raytracingResources.ifbBufferSize;
ifb_arguments.intersection_function_stride = raytracingResources.ifbBufferStride;

// Set up the ray and finish intersecting
metal::raytracing::ray r = { origin, direction };
auto result = trace.intersect(r, ads, ifb_arguments);

13:02 - Change of temporal scaler setup to denoised temporal scaler setup

// Change of temporal scaler setup to denoised temporal scaler setup

MTLFXTemporalScalerDescriptor* desc = [MTLFXTemporalScalerDescriptor new];
desc.colorTextureFormat = MTLPixelFormatBGRA8Unorm_sRGB;
desc.outputTextureFormat = MTLPixelFormatBGRA8Unorm_sRGB;
desc.depthTextureFormat = DepthStencilFormat;
desc.motionTextureFormat = MotionVectorFormat;

desc.diffuseAlbedoTextureFormat = DiffuseAlbedoFormat;
desc.specularAlbedoTextureFormat = SpecularAlbedoFormat;
desc.normalTextureFormat = NormalVectorFormat;
desc.roughnessTextureFormat = RoughnessFormat;

desc.inputWidth = _mainViewWidth;
desc.inputHeight = _mainViewHeight;
desc.outputWidth = _screenWidth;
desc.outputHeight = _screenHeight;
temporalScaler = [desc newTemporalDenoisedScalerWithDevice:_device];

13:04 - Change temporal scaler encode to denoiser temporal scaler encode

// Change temporal scaler encode to denoiser temporal scaler encode

temporalScaler.colorTexture = _mainView;
temporalScaler.motionTexture = _motionTexture;

temporalScaler.diffuseAlbedoTexture = _diffuseAlbedoTexture;
temporalScaler.specularAlbedoTexture = _specularAlbedoTexture;
temporalScaler.normalTexture = _normalTexture;
temporalScaler.roughnessTexture = _roughnessTexture;

temporalScaler.depthTexture = _depthTexture;
temporalScaler.jitterOffsetX = _pixelJitter.x;
temporalScaler.jitterOffsetY = -_pixelJitter.y;
temporalScaler.outputTexture = _upscaledColorTarget;
temporalScaler.motionVectorScaleX = (float)_motionTexture.width;
temporalScaler.motionVectorScaleY = (float)_motionTexture.height;
[temporalScaler encodeToCommandBuffer:commandBuffer];

16:04 - Creating instance descriptors for instance acceleration structure

// Creating instance descriptors for instance acceleration structure
MTLAccelerationStructureInstanceDescriptor *grassInstanceDesc, *treeInstanceDesc = . . .;
grassInstanceDesc.intersectionFunctionTableOffset = 0;
treeInstanceDesc.intersectionFunctionTableOffset  = 1;

// Create buffer for instance descriptors of as many trees/grass instances the scene holds
id <MTLBuffer> instanceDescs = . . .;
for (auto i = 0; i < scene.instances.size(); ++i)
. . .

関連する章

リソース

関連ビデオ

WWDC25

WWDC23

WWDC22