Apple Projected Media Profileについて

Apple Projected Media Profile（APMP）の詳細と、Video Extended Usageシグナリングを活用することでQuickTimeファイルやMP4ファイルにおける180度／360度およびWide FoVのプロジェクションを実現する、APMPの機能について解説します。OSに用意されたフレームワークとツールを使用して、APMPを含むメディアの変換、読み書き、編集、エンコードを行う方法のガイドを提供します。また、高度なイマーシブ体験を実現する空間オーディオコンテンツの作成と提供を可能にする、Apple Positional Audio Codec（APAC）の機能についても触れます。

リソース

関連ビデオ

WWDC25

WWDC22

AVQTの最新情報

WWDC21

Advanced Video Quality Toolによるビデオの評価

こんにちは Jonです Core Media Spatial Technologiesチームのエンジニアを務めていますこのビデオでは QuickTimeファイルでの非直線投影ビデオの表示方法の基礎について説明しますまたCore Media、Video Toolbox、 AVFoundationの各フレームワークに導入された新機能を紹介しますこれらの機能は Apple Projected Media Profile（APMP）ビデオの読み込み、作成、編集、公開に使用できます最後に Apple Positional Audio Codecを使用して投影されるビデオメディアにイマーシブな空間オーディオを取り入れる方法を解説しますこのセッションは 180度／360度／ワイドFoVカメラのベンダーの方、ビデオ編集ソフトを扱うデベロッパの方、注目の新しいメディアでの開発に興味のあるアプリデベロッパの方に最適な内容ですまた「Explore video experiences for visionOS」のビデオでは visionOS 26で利用できるイマーシブなビデオプロファイルやビデオ投影の概念についての重要な基本情報を説明していますまず非直線投影ビデオの基礎を確認しましょうこの内容は「Explore video experiences for visionOS」でも紹介されています visionOS 26の新機能である Apple Projected Media Profileはコンシューマー向けカメラで撮影された 180度／360度／ワイドFoVビデオをサポートしています各種の投影メディアプロファイルの間での主な相違点の1つは投影の種別です 2Dビデオ、3Dビデオ、空間ビデオでは直線投影が使用されます 180度ビデオでは半正距円筒図法が使用されます 360度ビデオでは正距円筒図法がワイドFoVビデオではパラメトリック投影が使用されます正距円筒図法は等距円筒図法とも呼ばれ Final Cut Proなど多くの編集アプリでサポートされています正距円筒図法では外接球のピクセル座標は緯度と経度の角度として表現され長方形のビデオフレームの行と列に均等に投影されます水平軸は -180度から+180度で経度をマッピングします垂直軸は -90度から+90度で緯度をマッピングします半正距円筒投影も同様ですがビデオフレーム内のX座標の範囲は -90度から+90度ですパラメトリックイマーシブ投影では広角レンズや魚眼レンズに関連する内部パラメータやレンズによる歪みのパラメータを使います内部パラメータは撮影に使用したレンズシステムの焦点距離、光学中心、レンズによる歪みなどの情報を表しますこれらのパラメータは 3×3の行列として解釈されますこの行列は通常 Kと表記され 3次元の世界座標を画像平面上の2次元座標に変換するために使用されますさらにパラメトリックイマーシブ投影では放射状歪みなどのレンズによる歪みのパラメータを表現できます放射状歪みのパラメータは樽型歪みの補正に使用されます樽型歪みは光学中心からの距離に比例して直線が曲がって見えるもので広角レンズの設計上生じる歪みですこの画像では垣根の柱がレンズの端の近くでは曲がって見えています他のレンズ歪みの特性には接線歪み、投影オフセット、ラジアル角度の制限、レンズフレームの調整などがありますがパラメトリックイマーシブ投影ではそれらも指定できます

以上は基本知識の説明でしたがここからは AppleのAPIを使用して Apple Projected Media Profileコンテンツの情報を扱う方法を概説します

まず QuickTimeやMP4のムービーファイルで APMPビデオがどのように扱われるかについて説明します Apple Projected Media Profile（APMP）は QuickTimeファイルやMP4ファイルで 180度／360度／ワイドFoVの信号処理をサポートします QuickTimeファイルの構造は幅広い種類のメディアデータのコンテナの階層として構成されていますそれらの階層にはオーディオトラックやビデオトラックに加え各トラックの詳細を記述したデータも格納できます MP4のISO Base Media File Format （ISOBMFF）規格は QuickTimeを元に作られました ISOBMFFファイルにおけるデータ構造の基本単位はボックスです visionOS 1で導入されたVideo Extended Usage拡張ボックスではコンテンツがステレオスコピックかモノスコピックかを Stereo viewの情報で指定できます visionOS 26では Video Extended Usage （VEXU）に新しいボックスが追加され投影メディアプロファイルの信号処理が可能になりました Projectionボックスは各種の投影タイプのいずれかの信号に対応します正距円筒図法、半正距円筒図法、パラメトリックイマーシブなどです Lens collectionボックスにはパラメトリックイマーシブ投影の内部パラメータ、外部パラメータ、レンズによる歪みのパラメータが含まれます View packingボックスにはフレームパック画像における両眼の配置に関する情報（横並びまたは縦並び）が含まれますこれはモノスコピックの正距円筒図法ファイルにおける最小限の信号処理の例です Projectionボックスの ProjectionKindの値は正距円筒図法ですステレオスコピックの180度ビデオのファイルでは Stereo viewボックスが必要で ProjectionKindで指定する信号処理は半正距円筒図法ですこれらの構成要素を組み合わせることでステレオスコピックの360度ビデオなど他の信号処理も指定できます

QuickTime、ISOBMFF、空間メディア、イマーシブメディアの規格の詳細や Apple Projected Media Profileがサポートする Projectionボックスおよびその他のボックスの詳細は developer.apple.com/jpでご確認ください次に APMPコンテンツの撮影方法の概要と APMPの標準的なワークフローについて説明します APMP対応のコンテンツは様々な機種のカメラで撮影できます例えばキヤノンのEOS VRシステムはステレオスコピック180度ビデオの撮影と処理が可能です GoPro MAXやInsta360 X5では 360度ビデオを撮影できます GoPro HERO 13やInsta360 Ace Pro 2などの最新のアクションカメラではワイドFoVビデオを撮影できます Final Cut Proは 360度ビデオでのAPMPの読み込みと書き込みをサポートしていますそして今年後半に登場するカメラビデオ編集ソフトウェアであるキヤノンのEOS VR Utilityや GoPro Playerなどでは APMPの信号処理を行うMOVファイルや MP4ファイルのエクスポートが可能です 180度／360度ビデオの場合スティッチング、手ぶれ補正、ステレオ画像の補正などの処理にはカメラベンダーのソフトウェアを使用しますエディターが現時点でAPMP対応の場合 APMPの信号処理に対応した MOV／MP4ファイルとしてエクスポートします最後に Apple Vision Proへのファイルの転送には AirDropかiCloudを使用しましょうカメラのソフトウェアがAPMP未対応の場合 180度／360度ビデオとしてエクスポートを実行するには球面メタデータを使用し macOSのユーティリティである avconvertをコマンドラインから実行するか Finderで 1つ以上のビデオファイルを選択し controlキー+クリックで実行します最後に AirDropかiCloudを使ってファイルをApple Vision Proに転送します Apple Projected Media Profileは撮影、編集、配信を含むメディアワークフロー全体における投影ビデオの信号処理に適した形式です次に説明するのは APMPの信号処理を各ステップで使用できるステレオスコピックの180度ビデオのワークフローの例ですコンテンツをHEVC、RAW、ProResのコーデックで撮影してから ProResを使用して編集します 3Dコンテンツの撮影と編集に使えるのはフレームパック方式、マルチビュー方式、片眼ごとの別個のムービーファイル、1つのムービーファイルとして信号処理される 2つのビデオトラックですこの例では撮影にムービーファイルが2つ必要ですが編集は横並びのフレームパックのコンテンツで行っていますエンコードと公開にはマルチビューHEVC （MV-HEVC）コーデックを使うことで visionOSでの効率的な配信と再生を実現していますここまで APMPの規格と標準的なワークフローについて説明しました次は macOS 26とvisionOS 26向けの新機能である既存のメディアAPIによる APMPファイルの処理について説明しますまずはアセット変換機能ですメディアワークフロー関連アプリのデベロッパがAPMPの信号処理を導入するのは時間がかかるため Spherical Metadata V1／V2の信号処理を使用する互換アセットを認識する機能を AVFoundationに追加しました互換性のある180度／360度コンテンツとは正距円筒図法による投影を行うステレオスコピックまたはモノスコピックのフレームパック方式のコンテンツですアセット作成のオプションとして ShouldParseExternalSphericalTagsを渡すと互換性のある球面コンテンツが認識され適切なフォーマット記述のExtentionが合成されますこれにより他のシステムAPIが当該のアセットを APMPで信号処理されるアセットとして扱えるようになります formatDescription.extentionsに convertedFromExternalSphericalTagsが指定されていれば球面メタデータが解析されたことが確認できます visionOS 26には GoProやInsta360などのカメラベンダー向けにレンズ投影パラメータや一般的な視野モードのネイティブサポートが組み込まれています QuickLookではそれらのファイルを開く際変換するよう求められますアプリでワイドFoVコンテンツの変換を有効にするために使用するのは ImmersiveMediaSupportフレームワークの ParametricImmersiveAssetInfoオブジェクトですこのオブジェクトは互換性のあるカメラに対しパラメトリックイマーシブ投影の投影種別と内部パラメータおよびレンズ歪みのパラメータを含むビデオフォーマットの記述を生成します isConvertibleプロパティを使用すると互換性のあるカメラのメタデータが検出されたかどうかを判断しビデオトラックのフォーマット記述を新しく生成された記述で置き換えることができますこれでこのアセットを使用するシステムAPIがコンテンツをワイドFoV APMPと認識しますサンプルコード「Converting projected video to Apple Projected Media Profile」では配信可能なAPMPフォーマットへの変換方法を確認できます APMPビデオは広く利用されているシステムのメディアAPIで読み込めます CoreMediaフレームワークと AVFoundationフレームワークが更新され投影メディアの識別と読み込みのサポートが追加されましたアセットがAPMPプロファイルに準拠しているかを確認する必要がある場合例えばバッジの表示や個別の再生の設定を行うために準拠を確認したい場合は AVAssetPlaybackAssistantを使用して nonRectilinearProjectionの構成オプションをチェックします APMPビデオの再生体験を構築する方法について詳しくは「Support immersive video playback in visionOS apps」をご覧ください

より詳細を確認したい場合はまずmediaCharacteristicsを調べそのビデオトラックで非直線投影が指定されているか確認します次にprojectionKindを調べて適切な投影の信号処理が指定されているか確認しますフォーマット記述Extentionの viewPackingKindによりフレームパックコンテンツか判断できますこの場合横並びと縦並びのフレームパッキングがサポートされます投影メディアを編集するには AVFoundationフレームワークの AVVideoCompositionオブジェクトを使いますまた CMTaggedBuffersの理解も必要です CMTaggedDynamicBufferは複数のAPIにわたって使用されステレオスコピックコンテンツを処理します対象のAPIには AVVideoCompositionなど編集に関するAPIが含まれます CMTaggedDynamicBufferは基盤となるバッファの CMタグと呼ばれる特定のプロパティを指定するために使用されます各CMタグにはカテゴリと値が含まれますこの例では CMタグのStereoViewカテゴリは左眼であることを示しています

CMTaggedDynamicBufferは関連するバッファごとにグループ化できますこの例ではステレオスコピックビデオの CVpixelBufferの左眼と右眼でグループ化しています AVVideoCompositionでステレオスコピックビデオを編集できるよう追加したのがコンポジタが生成するタグ付きバッファのフォーマットを指定するためのAPIとコンポジションリクエストにタグ付きバッファを渡すためのメソッドです outputBufferDescriptionはコンポジタが生成するCMTaggedBuffersの種類を指定します合成を開始する前に定義します CMTaggedBufferのステレオスコピックペアを構築してから finishを呼び出してタグ付きバッファを渡します

Apple Projected Media Profileアセットの変換、読み込み、編集を行う方法について説明しました次は書き込みのプロセスを説明します

モノスコピックの360度ビデオを書き込むこのサンプルコードではアセットの作成に AVAssetWriterを使用しています CompressionPropertyKeyを使用して ProjectionKindに半正距円筒図法を指定しています圧縮のプロパティは AVAssetWriterInputに渡されますがこれにはoutputSettingsの辞書プロパティの AVVideoCompressionPropertiesKeyを使います

次に APMPコンテンツの公開に関する推奨事項を紹介します

これらは visionOSでの再生における推奨条件ですビデオコーデックのエンコードパラメータは HEVC MainまたはMain 10に準拠させますクロマサンプリングは4:2:0です推奨されるカラープライマリは Rec.709またはP3-D65ですステレオモードはモノスコピックもステレオスコピックも可です 10ビットでの推奨解像度はモノスコピックでは7680×3840 ステレオスコピックでは片眼あたり4320×4320ですフレームレートは解像度やビット深度により異なりますが推奨値は 10ビットのモノスコピック8K またはステレオスコピック4Kの場合 30fpsですビットレートのエンコード設定はコンテンツによって異なり用途に応じて適切に選択する必要がありますがピーク時でも150Mbps以下が推奨です Appleが使用している MV-HEVCステレオビデオの詳細は developer.apple.com/jpのドキュメント「Apple HEVC Stereo Video Interoperability Profile」で確認できます Advanced Video Quality Tool（AVQT）がアップデートされ 3Dビデオ、空間ビデオ、 APMPの180度／360度コンテンツなどイマーシブフォーマットのサポート追加と精度向上のためのアルゴリズム強化が行われました AVQTは圧縮された映像コンテンツの知覚上の品質の評価とビデオエンコーダのパラメータの微調整に役立ちますまた HLSの各ティアにおけるビットレート最適化にも有効ですその他の新機能として正距円筒図法と半正距円筒図法での投影に対応した品質メトリックスの算出機能があります HTTP Live Streamingの規格は Apple Projected Media Profileのストリーミングに対応するよう強化されており Apple Developer Webサイトで入手できる最新のHLSツールも APMPの配信をサポートするようにアップデートされていますこれはステレオスコピック180度アセットのマニフェストの一例です主な変更点は EXT-X-STREAM-INFタグです REQ-VIDEO-LAYOUT属性はステレオおよび半正距円筒図法の投影を指定していますマップセグメントには半正距円筒図法の信号処理を示すProjectionと Stereo viewの情報を指定するフォーマット記述のExtentionが必要です HLSのビットレートに関するティアの階層やその他のオーサリングガイドラインに関する最新情報は Apple Developer Webサイトの「HLS Authoring Specification」をご覧ください空間オーディオは魅力的なイマーシブ体験の構築において映像と同じくらい重要です実世界では音はあらゆる方向から聞こえてきますそのような体験を再現するには音場全体を表現できる技術が必要ですこの目的のために設計されたのが Apple Positional Audio Codecs（APAC）です APACの重要な機能の1つが音場を高忠実度で再現するためのアンビソニック音声のエンコーディングですアンビソニック音声は全方位の空間オーディオを録音、ミキシング、再生するための技術です

アンビソニック録音は特定のスピーカー配置に依存しません球面調和関数という基底関数を用いて音場を数学的にエンコードするためです

アンビソニック音声の収録では 3D音響環境の録音用に配置されたマイクロフォンアレイを使用しますさらにデジタル信号処理によって各マイクの信号を球面調和成分に対応する指向性の信号へと変換しますこれらすべての信号を組み合わせることでオリジナルの音場を正確に再現できますアンビソニックスにおける「次数」とは音声ミックスを表現するために使用される球面成分の数を指します 1次アンビソニックスは4つの成分つまり4チャンネルで構成され全指向性のチャンネル1つと前後、左右、上下の指向性を持つ 3つのチャンネルに対応しています 2次アンビソニックスは9つの成分を 3次アンビソニックスは 16の成分を使用します高次のアンビソニックスはより高い空間分解能を有します Apple Positional Audio Codecは高効率な空間オーディオコーデックであり APMPビデオとアンビソニックスを使用する空間オーディオのエンコードにおいて使用が推奨されます APACは watchOSを除くすべての Appleプラットフォームでデコードされます組み込みのAPACエンコーダは iOS、 macOS、visionOSの各プラットフォームで AVAssetWriterを通じて利用でき 1次、2次、3次アンビソニックスをサポートしますこのコードは AVAssetWriterを使用した 1次、2次、3次アンビソニックスのエンコードに必要な最小限の出力設定を示しています APMP用にAPACにエンコードされたアンビソニックスの推奨ビットレートは 1次の場合で384kbps 3次の場合で768kbpsです APACオーディオは HLSによるセグメント化とストリーミングが可能ですこの例は APACオーディオで 3次アンビソニックトラックをエンコードした正距円筒図法を使用するモノスコピックビデオを示しています

Apple Projected Media Profileについての説明は以上ですご自身のアプリやサービスに APMPのサポートを追加しイマーシブなユーザー生成コンテンツをさっそく再生、編集、共有しましょうカメラベンダーの方は APMPを適宜統合することで Appleのエコシステムでの再生をサポートできます Apple Positional Audio Codecを採用しアンビソニックマイクで収録した音声をイマーシブビデオと組み合わせて臨場感あふれる音声環境を提供しましょうご視聴ありがとうございました私もステレオスコピック180度ビデオの撮影にこれからさっそく出かけます

8:58 - Recognize spherical v1/v2 equirectangular content

// Convert spherical v1/v2 RFC 180/360 equirectangular content

import AVFoundation

func wasConvertedFromSpherical(url: URL) -> Bool {
	let assetOptions = [AVURLAssetShouldParseExternalSphericalTagsKey: true]
	let urlAsset = AVURLAsset(url: url, options: assetOptions)
	
	// simplified for sample, assume first video track
	let track = try await urlAsset.loadTracks(withMediaType: .video).first!
	
	// Retrieve formatDescription from video track, simplified for sample assume first format description
	let formatDescription = try await videoTrack.load(.formatDescriptions).first
	
	// Detect if formatDescription includes extensions synthesized from spherical
	let wasConvertedFromSpherical = formatDescription.extensions[.convertedFromExternalSphericalTags]
	
	return wasConvertedFromSpherical
}

9:54 - Convert wide FOV content from supported cameras

// Convert wide-FOV content from recognized camera models
import ImmersiveMediaSupport

func upliftIntoParametricImmersiveIfPossible(url: URL) -> AVMutableMovie {
	let movie = AVMutableMovie(url: url)

	let assetInfo = try await ParametricImmersiveAssetInfo(asset: movie)
	if (assetInfo.isConvertible) {
		guard let newDescription = assetInfo.requiredFormatDescription else {
			fatalError("no format description for convertible asset")
		}
		let videoTracks = try await movie.loadTracks(withMediaType: .video)
		guard let videoTrack = videoTracks.first,
			  let currentDescription = try await videoTrack.load(.formatDescriptions).first
		else {
      fatalError("missing format description for video track")
		}
		// presumes that format already compatible for intended use case (delivery or production)
    // for delivery then if not already HEVC should transcode for example
		videoTrack.replaceFormatDescription(currentDescription, with: newDescription)
	}
  return movie
}

10:58 - Recognize Projected & Immersive Video

// Determine if an asset contains any tracks with nonRectilinearVideo and if so, whether any are AIV
import AVFoundation

func classifyProjectedMedia( movieURL: URL ) async -> (containsNonRectilinearVideo: Bool, containsAppleImmersiveVideo: Bool) {
	
	let asset = AVMovie(url: movieURL)
	let assistant = AVAssetPlaybackAssistant(asset: asset)
	let options = await assistant.playbackConfigurationOptions
	// Note contains(.nonRectilinearProjection) is true for both APMP & AIV, while contains(.appleImmersiveVideo) is true only for AIV
	return (options.contains(.nonRectilinearProjection), options.contains(.appleImmersiveVideo))
}

11:22 - Perform projection or viewPacking processing

import AVFoundation
import CoreMedia

// Perform projection or viewPacking specific processing
func handleProjectionAndViewPackingKind(_ movieURL: URL) async throws {
	
	let movie = AVMovie(url: movieURL)
	let track = try await movie.loadTracks(withMediaType: .video).first!
	let mediaCharacteristics = try await track.load(.mediaCharacteristics)
	
	// Check for presence of non-rectilinear projection
	if mediaCharacteristics.contains(.indicatesNonRectilinearProjection) {
		let formatDescriptions = try await track.load(.formatDescriptions)
		for formatDesc in formatDescriptions {
			if let projectionKind = formatDesc.extensions[.projectionKind] {
				if projectionKind == .projectionKind(.equirectangular) {
					// handle equirectangular (360) video
				} else if projectionKind == .projectionKind(.halfEquirectangular) {
					// handle 180 video
				} else if projectionKind == .projectionKind(.parametricImmersive) {
					// handle parametric wfov video
				} else if projectionKind == .projectionKind(.appleImmersiveVideo) {
					// handle AIV
				}
			}
			if let viewPackingKind = formatDesc.extensions[.viewPackingKind] {
				if viewPackingKind == .viewPackingKind(.sideBySide) {
					// handle side by side
				} else if viewPackingKind == .viewPackingKind(.overUnder) {
					// handle over under
				}
			}
		}
	}
}

12:51 - Specify outputBufferDescription for a stereoscopic pair

var config = try await AVVideoComposition.Configuration(for: asset)
	
	config.outputBufferDescription = [[.stereoView(.leftEye)], [.stereoView(.rightEye)]]

	let videoComposition = AVVideoComposition(configuration: config)

13:01 - Finish an asyncVideoCompositionRequest with tagged buffers

func startRequest(_ asyncVideoCompositionRequest: AVAsynchronousVideoCompositionRequest) {
	var taggedBuffers: [CMTaggedDynamicBuffer] = []
	let MVHEVCLayerIDs = [0, 1]
	let eyes: [CMStereoViewComponents] = [.leftEye, .rightEye]
	
	for (layerID, eye) in zip(MVHEVCLayerIDs, eyes) {
		// take a monoscopic image and convert it to a z=0 stereo image with identical content for each eye
		let pixelBuffer = asyncVideoCompositionRequest.sourceReadOnlyPixelBuffer(byTrackID: 0)
		
		let tags: [CMTag] = [.videoLayerID(Int64(layerID)), .stereoView(eye)]
		let buffer = CMTaggedDynamicBuffer(tags: tags, content: .pixelBuffer(pixelBuffer!))
		taggedBuffers.append(buffer)
	}
	asyncVideoCompositionRequest.finish(withComposedTaggedBuffers: taggedBuffers)
}

Apple Projected Media Profileについて

関連する章

リソース

関連ビデオ

WWDC25

WWDC22

WWDC21