アプリの音声録音機能の強化

アプリの音声録音機能の強化

アプリの音声録音機能を向上させる方法を学びましょう。iOSおよびiPadOS26の入力ピッカーインタラクションを使用して、オーディオデバイスを柔軟に選択する方法や、AirPodsで高品質な音声録音を行うためのAPIを紹介します。また、発話と環境音の分離を実現するAudioToolbox、AVFoundation、Cinematicの各種フレームワークを使用した空間オーディオの収録および編集の機能の概要も説明します。

関連する章
- 0:00 - イントロダクション
- 1:02 - 入力経路の選択
- 3:06 - AirPodsでの録音
- 5:11 - 空間オーディオのキャプチャ
- 11:04 - Audio Mix
リソース
関連ビデオ

WWDC25
- アプリでのシネマティックビデオの撮影
- キャプチャコントロールによるカメラ体験の向上
こんにちは Steve Nimickです空間オーディオテクノロジーに携わるオーディオ担当ソフトウェアエンジニアですこのセッションではアプリのオーディオ機能を強化する方法をご紹介します入力デバイス選択やオーディオキャプチャ再生に関するAPIの新情報をお伝えします
オーディオキャプチャの最初のステップは入力デバイスの選択ですマイクにはさまざまな種類があり新しいAPIではアプリ内からアクティブな音源を変更できますその他の機能強化により AirPodsを使用した新しい高音質録音モードにも対応できるようになりましたさらに空間オーディオキャプチャのほかオーディオ処理のさまざまな可能性を提供する新機能が追加されています新しいAPIにより空間オーディオ再生中もオーディオミックス機能が利用できますまずは入力ルートの選択と接続されたデバイスとアプリのやり取りに関する最新情報を紹介しますコンテンツ制作者は音楽の録音や Podcastなどさまざまなアプリで複数のオーディオデバイスを併用します iOS 26ではシステムによるオーディオハードウェア管理方法が改善されアプリでもその方面が改善されています AVKitの新しいAPIでは使用可能な入力のリストが表示されますアプリ内からオーディオソースを切り替えできるためシステム設定に移動する必要はありませんこちらがUIの表示例ですアプリには新しい入力選択メニューを表す UIボタンを設けることができますライブサウンドレベル測定機能を備えたデバイスのリストが表示されますマイクモードの選択ビューでは入力デバイスがサポートするモードが表示されますオーディオスタックは選択したデバイスを記憶して次回アプリをアクティブした際に同じ入力を選択しますこちらがこの機能を可能にするAPIです
まずこのAPIを呼び出す前にオーディオセッションの設定が必要ですこれで入力選択ビューにデバイスの正しいリストが表示されます入力ピッカーを表示するには AVInputPickerInteractionのインスタンスをオーディオセッションの設定後に作成します次に InputPickerInteractionのデリゲートを表示する側のビューコントローラとして指定しますアプリではピッカー操作ビューの表示に使用するボタンなどのUI要素を指定できます最後に UIコールバック関数で「present」メソッドを使用してオーディオ入力メニューを表示させますこれでボタンをタップするとピッカー操作ビューが表示されデバイスの選択や変更を実行できますこのAPIはアプリを稼働させたままの状態で入力を直感的に変更する便利な手段を提供しますコンテンツ制作者にとって最高のマイクとは最もアクセスしやすいマイクでしょうここで人気の便利な入力デバイス AirPodsの話をしましょう iOS 26ではオーディオキャプチャ機能を備えたアプリ用に高品質、高サンプルレートの Bluetoothオプションを新たに提供しますコンテンツ制作者のため特別に設計された新しいメディア調整機能により声とバックグラウンドサウンドの絶妙なバランスを実現し LAVマイクに匹敵する仕上がりになっていますチューニングモードをアクティブにするとアプリはAirPodsでの高品質録音用に特別設計されたより信頼性の高い Bluetoothリンクを使用しますアプリでこの機能を構成する方法をご紹介します AVAudioSessionとAVCaptureSessionの両方に対応しています AudioSession向けに新しいカテゴリオプションが登場しました「bluetoothHighQualityRecording」ですアプリがすでにAllowBluetoothHFP オプションを使用している場合は高品質オプションを追加すればアプリがこれをデフォルトとして使用します BluetoothHFPは入力ルートが Bluetooth高品質に非対応だった場合のフォールバックに使用します AVCaptureSessionにも同様のプロパティがあり trueに設定するとこの高品質モードが有効になりますがこのときアプリでオーディオセッションを手動設定する必要はありません両方のセッションでこのオプションが有効である場合システムレベルのオーディオ入力メニューにはデバイスリスト内の高品質AirPodsが表示されます AirPods機能という優れたオーディオ録音機能がアプリに加わり最小限のコード変更をするだけでこれをサポートできます高品質録音にプラスして AirPodsには録音を簡単に制御できる機能も組み込まれています AirPodsのステムを押す動作で開始と停止を操作できますこの機能をアプリでサポートする方法の詳細については WWDC25の「Enhancing your camera experience with capture controls」をご覧ください次は空間オーディオのキャプチャに関する新しいアップデートを紹介します iOS 26では AVAssetWriterを使用するアプリで空間オーディオを録音できますまず「空間オーディオ」の仕組みから説明しましょう空間オーディオのキャプチャでは iPhoneのマイクと同様にマイクの配列を使用して 3Dシーンを録音しマイクからのキャプチャが「アンビソニックス」と呼ばれる球面調和関数に基づく形式へと変換されます空間オーディオは一次アンビソニックスすなわちFOAとして保存されます FOAは最初の4つの球面調和関数コンポーネントを使用しますオムニコンポーネントが1つと X、Y、Z方向または前後、左右、上下の 3つの垂直双極子ですこの形式で録音したオーディオは AirPodsのヘッドトラッキングのように空間オーディオ再生機能を活用できますさらにオーディオミックスエフェクト用の新しいAPIを使用することで前景音と背景音のバランスを簡単に調整できます空間オーディオキャプチャ用のAPIは iOS 18で導入されました AVCaptureMovieFileOutputを使用するアプリで multichannelAudioModeプロパティの AVCaptureDevice入力を .firstOrderAmbisonicsに設定すると空間オーディオを録音できます iOS 26ではボイスメモなど音声のみのアプリでも QuickTimeオーディオ形式でデータを保存できるオプションが加わりました拡張子は.qtaです QuickTimeムービーや MPEGファイルと同様に QTA形式は代替トラックグループを含む複数のオーディオトラックをサポートします空間オーディオファイルの作成方法と同じです適切にフォーマットされた空間オーディオアセットの概要を紹介しますオーディオトラックは2つで AAC形式のステレオトラックと新しいApple Positional Audio Codec (APAC) フォーマットの空間オーディオトラックです ProResでの録音中両オーディオトラックは PCMとしてエンコードされますステレオトラックは空間オーディオ非対応のデバイスとの互換性を確保するためのものです最後に少なくとも1つのメタデータトラックに再生用の情報が収容されます録音を停止するとキャプチャプロセスがデータサンプルを作成しますこれはオーディオミックスエフェクトを使用できることを示すものです再生中に適用されるチューニングパラメータもここに含まれますこのトピックについては次のオーディオミックスの項で詳しく説明しますトラックグループの作成とフォールバック関係の詳細についてはテクニカルドキュメント「Understanding alternate track groups in movie files」をご覧ください MovieFileOutputに代えてAVAssetWriterで独自のファイルを構築するアプリにおいて空間オーディオ録音に必要な要素を紹介しますオーディオトラック2本とメタデータトラック1本が必要になります CaptureDeviceInputのmultichannelAudioMode プロパティをFOAに設定した場合 AVCaptureSessionはAudioDataOutput (ADO)インスタンスを2つまでサポートします 1つのADOで 4チャンネルのFOAまたは 2チャンネルのステレオを生成できます 2トラックの空間オーディオには ADOが2つ必要ですそのうちの1つはFOAで構成しもう1つはステレオ出力にする必要があります ADOオブジェクトに新しいチャンネルレイアウトタグのプロパティが加わりました「spatialAudioChannelLayoutTag」ですこのレイアウトタグはステレオまたは HOA、ACN、SN3Dの4チャンネルによる一次アンビソニックスのいずれかの値を取ることができますアプリでオーディオトラックを作成するには AssetWriter入力が2系統必要です 1つはステレオ用 1つはFOA用です最後のピースがメタデータでこのサンプル作成用の新しいAPIがあります AVCaptureSpatialAudioMetadataSampleGenerator というヘルパーオブジェクトを使用しますサンプルジェネレータオブジェクトは FOA AudioDataOutputからのものと同じバッファを受け取ります録音が停止したら最後のバッファを送信した後サンプルジェネレータが時間メタデータのサンプルを作成してもう1つのAssetWriterInputに渡しメタデータトラックとしてコンパイルして最終的なコンポジションが完成します AVCaptureSessionではもう1つ MovieFileOutputと AudioDataOutputに影響するアップデートが行われました両方のオブジェクトを活用するアプリにも役立つものとなっています AudioDataOutputは取得したオーディオサンプルバッファへのアクセスを提供しこれをもとにエフェクトを適用したり画面上に波形を描画したりできます iOS 26では CaptureSessionが MovieFileOutputと AudioDataOutput 両方の動作を同時にサポートしますつまりファイルへの記録とオーディオサンプルの処理や視覚化をアプリがリアルタイムで実行できるというわけです今回のアップデートによりこうした「サプライズ風」の要素をより自由にアプリに追加できるようになりました AVAssetWriterを使用した空間オーディオキャプチャの例については新しいビデオ「Capturing Spatial Audio in your iOS app」にリンクされたサンプルアプリをご確認ください iOS 26では空間オーディオを含むシネマスタイルのビデオを録画できるオプションもあります詳しくは WWDC25の「Capture Cinematic video in your app」をご覧ください次のセクションでは空間オーディオのもう1つの要素オーディオミックスによる再生と編集についてお話しします iOS 26およびmacOS 26では Cinematicフレームワークにオーディオミックスエフェクト制御用のオプションが加わりました写真編集機能と同じですがこちらは空間オーディオで録画されたビデオ用ですオーディオミックス機能により話し声などの前景音と周囲のノイズとのバランスを制御できるようになります新しいAPIは写真アプリと同じシネマティックやスタジオセンターフレームといったミックスモードを備えていますアプリではほかにも6つのモードを利用できます抽出された話し声だけのモノラル音声や前景寄りの音声や環境音だけの背景音声を FOA形式で提供できます次にご紹介するデモのように空間オーディオコンテンツ再生用のパワフルな機能をプラスできますこちらのデモは空間オーディオ録音におけるオーディオミックスエフェクトの制御方法を紹介するものですこの美しいApple Parkキャンパスはビデオの舞台として申し分ない環境ですただ携帯電話のマイクはそのままだと周囲の音をすべて拾ってしまいます私が録りたい音はこのような音ではありません Steveさんがさまざまなオーディオミックススタイルを切り替えられるUI要素をアプリに追加してくれました標準、シネマティック、スタジオそして複数の背景音声系統モードですシネマティックを選択すると映画のようなオーディオミックススタイルが適用されますほらずっといい音になりました話し声と周囲のノイズのバランスをコントロールするためのスライダーも追加されています自分の声が大きくはっきりと聞こえるポジションを探しますここですねかなりいいバランスだと思います
バックグラウンドモードを選択すると私の声はまったく聞こえなくなりますオーディオトラックには環境音だけが収録されますポストプロダクション用に環境音だけのトラックを作成するのに利用できますそのモードを選択してみます
ボイスモードに戻りました Steveさんからこの機能をアプリに追加する方法を紹介します
実装方法を説明しますまず Cinematicフレームワークをインポートしますオーディオミックスの 2つのプライマリパラメータは effectIntensityとrenderingStyleでデモアプリではUI要素を使用してこれらをリアルタイムで変更します強度については 0から1の範囲で動作します CNSpatialAudioRenderingStyleはスタイルオプションを含む列挙型です次に CNAssetSpatialAudioInfoのインスタンスを初期化しますこのクラスにはオーディオミックス操作用のさまざまなプロパティとメソッドがありますたとえば次の行にある run audioInfo.audioMix()は現在のミックスパラメータを使用して AVAudioMixを作成しますこの新しいミックスを AVPlayerItemのオーディオミックスプロパティに設定します AVPlayerアプリでオーディオミックスの使用を始める準備はこれだけです
AVPlayerの外では新しいAudioUnit 「AUAudioMix」でオーディオミックスの処理を実行できますこれは話し声と環境音の分離を実行するAUですこのAUを直接使用すると多くの設定を自動でこなし AVPlayerを使用しないアプリで威力を発揮しますより詳細にカスタマイズされたワークフローが必要になるアプリには AUAudioMixがより多くの柔軟性とチューニングオプションを提供しますここからは AU内のさまざまなコンポーネントを紹介します入力は4チャンネルの FOA空間オーディオですこれが話し声と環境音を分離する処理ブロックに流れ込みます出力は AUSpatialMixerに送られますここで複数の再生オプションを選択できます最初の2つのAUパラメータは RemixAmountとStyleというオーディオミックスの 2つの基本要素ですまた AUAudioMixプロパティの EnableSpatializationは SpatialMixerのオン／オフを切り替えますこれで AU全体の出力形式を変更しますこれについては後で詳しく説明します AudioUnitプロパティ SpatialMixerOutputTypeはヘッドフォン、デバイス内蔵スピーカー外部スピーカーから出力先を選択するオプションを提供します AUには入力ストリーム形式と出力ストリーム形式のプロパティもあります AUはFOAオーディオを受信するので入力ストリームを4チャンネルに設定しますもう1つ SpatialAudioMixMetadata というプロパティがあります話し声のコンポーネントや環境音コンポーネントについて自動生成されるチューニングパラメータを収容するCFDataオブジェクトですその仕組みを紹介します空間オーディオの録音が停止した直後キャプチャプロセスが前景と背景の音を分析します再生中に適用されるゲインやEQなどのオーディオパラメータを計算します値はメタデータトラックに保存されます AUAudioMixを設定する際アプリは入力ファイルからデータを読み取ってチューニングパラメータを AUに適用する必要がありますメタデータをファイルから抽出する方法の一例を紹介しますここでも CNAssetSpatialAudioInfo のインスタンスから始まり audioInfo.spacialAudioMixMetadata を呼び出して MixMetadataのプロパティを取得しますこのプロパティをAUで設定するには CFData型とする必要があります
先ほど EnableSpatialization プロパティの話をしましたデフォルトではオフになっておりこのモードでは AUは 5チャンネル分の音源分離結果を出力します FOAにおける環境音用の4チャンネルと話し声用の1チャンネルです空間化プロパティを有効にすると AUは 5.1サラウンドや7.1.4など他の一般的なレイアウトをサポートしますさてビデオにはコマンドラインツールのサンプルプロジェクト「Editing Spatial Audio with an audio mix」がリンクされています SpatialAudioCLIでオーディオミックスを適用する方法には 3通りありますプレビューモードは「AVPlayer」を使用して入力内容を再生しパラメータを適用しますベイクオプションは AVAssetWriterでステレオ互換性トラックなどオーディオミックスパラメータを含むファイルを新規で保存しますプロセスモードは「AUAudioMix」を介して入力を送信し指定したチャネルレイアウトに出力をレンダリングします新しいオーディオ機能をすべてお伝えしたところでアプリを1つ上のレベルに引き上げる方法をご紹介します
AVInputPickerInteractionを追加してアプリ内でネイティブにオーディオ入力を選択できるようにしましょう AirPodsのBluetooth 高品質録音オプションを有効にして素晴らしいサウンドを迅速かつ簡単にキャプチャできるようにしましょう MovieFileOutputとAudioDataOutput を使用して録音やオーディオエフェクト適用時の柔軟性を高めましょう空間オーディオキャプチャと AVAssetWriterを統合し再生中は新しいオーディオミックスAPIを使用してコントロール性を最大限に高めましょうサンプルコードをダウンロードして空間オーディオを始めましょう
皆さんのアプリを使って創造された世界に没入できる瞬間を楽しみにしていますご視聴ありがとうございました

import AVKit

class AppViewController {

    // Configure AudioSession

    // AVInputPickerInteraction is a NSObject subclass that presents an input picker
    let inputPickerInteraction = AVInputPickerInteraction()   
    inputPickerInteraction.delegate = self

    // connect the PickerInteraction to a UI element for displaying the picker
    @IBOutlet weak var selectMicButton: UIButton!
    self.selectMicButton.addInteraction(self.inputPickerInteraction)

    // button press callback: present input picker UI
    @IBAction func handleSelectMicButton(_ sender: UIButton) {
	    inputPickerInteraction.present()
    }
}

3:57 - AirPods high quality recording

// AVAudioSession clients opt-in - session category option
AVAudioSessionCategoryOptions.bluetoothHighQualityRecording

// AVCaptureSession clients opt-in - captureSession property
session.configuresApplicationAudioSessionForBluetoothHighQualityRecording = true

13:26 - Audio Mix with AVPlayer

import Cinematic

// Audio Mix parameters (consider using UI elements to change these values)
var intensity: Float32 = 0.5 // values between 0.0 and 1.0
var style = CNSpatialAudioRenderingStyle.cinematic

// Initializes an instance of CNAssetAudioInfo for an AVAsset asynchronously
let audioInfo = try await CNAssetSpatialAudioInfo(asset: myAVAsset)
    
// Returns an AVAudioMix with effect intensity and rendering style.
let newAudioMix: AVAudioMix = audioInfo.audioMix(effectIntensity: intensity,
                                                 renderingStyle: style)

// Set the new AVAudioMix on your AVPlayerItem
myAVPlayerItem.audioMix = newAudioMix

16:45 - Get remix metadata from input file

// Get Spatial Audio remix metadata from input AVAsset

let audioInfo = try await CNAssetSpatialAudioInfo(asset: myAVAsset)

// extract the remix metadata. Set on AUAudioMix with AudioUnitSetProperty()
let remixMetadata = audioInfo.spatialAudioMixMetadata as CFData

- 0:00 - イントロダクション
- iOS 26 introduces API updates for app audio recording enhancements, including input device selection, high-quality AirPods recording, Spatial Audio capture, audio processing, and the Audio Mix feature during Spatial Audio playback.
- 1:02 - 入力経路の選択
- AVKit includes a new API, 'AVInputPickerInteraction', that enhances audio input management for content creators using multiple devices. 'AVInputPickerInteraction' allows apps to display a live input selection menu with sound-level metering and microphone mode selection, enabling you to switch audio sources directly within the app without navigating to System Settings. The audio stack remembers the selected device for future use.
- 3:06 - AirPodsでの録音
- Starting in iOS 26, AirPods offer LAV-like sound quality with a new media tuning mode, allowing you to use AirPods as a recording tool. Apps can easily enable this high-quality Bluetooth recording feature through 'AVAudioSession' or 'AVCaptureSession', providing a reliable and convenient high-quality solution with built-in stem controls for easy start and stop.
- 5:11 - 空間オーディオのキャプチャ
- iOS 26 introduces several updates to Spatial Audio recording capabilities. Spatial Audio capture now allows apps using 'AVAssetWriter' to record in First Order Ambisonics (FOA) format. FOA utilizes four spherical harmonic components to capture a 3D audio scene, enabling immersive Spatial Audio playback with features like headtracking on AirPods. New APIs enable you to adjust the balance of foreground and background sounds using the Audio Mix effect and to save audio-only data in the QuickTime audio format (.qta). A properly formatted Spatial Audio asset includes two audio tracks: a stereo track in AAC format for compatibility and a Spatial Audio track in the new Apple Positional Audio Codec (APAC) format. Additionally, there is at least one metadata track containing essential playback information. iOS 26 also allows simultaneous operation of 'MovieFileOutput' and 'AudioDataOutput', enabling real-time audio processing and visualization while recording to a file. You can also now record Cinematic Videos with Spatial Audio included.
- 11:04 - Audio Mix
- In iOS and macOS 26, the Cinematic framework introduces new Audio Mix controls for Spatial Audio videos. This feature, like the Photos app's edit feature, allows you to adjust the balance between foreground sounds, such as speech, and background ambient noise. The framework provides various mix modes, including Cinematic, Studio, and In-Frame, as well as six additional modes that extract speech or ambience separately. You can implement these controls using UI elements to adjust the effect intensity and rendering style in real-time. The AudioUnit AUAudioMix enables more specific and customized workflows for apps that don't use AVPlayer. It separates speech and ambience, and allows you to render to different outputs, such as headphones, speakers, or surround sound systems. The framework also includes 'SpatialAudioMixMetadata' that automatically tunes the dialog and ambience components during playback. A command-line tool sample project, 'SpatialAudioCLI', is linked to this video. Download it to get started with Spatial Audio.

関連する章

リソース

関連ビデオ

WWDC25