音声処理の新機能

音声処理の新機能

Appleの音声処理APIを使用して、VoIPアプリでベストなオーディオ体験を実現する方法を紹介します。ミュート中に誰かが話していることを検出する方法や、他のオーディオのダッキング動作を調整する方法などを説明します。

関連する章
- 0:00 - Introduction
- 3:19 - Other audio ducking
- 7:55 - Muted talker detection
- 11:37 - Muted talker detection for macOS
リソース
- - HDビデオ
  - SDビデオ
関連ビデオ

WWDC23
- AirPodsによるアプリケーションのオーディオ体験の向上
- tvOS向けの連携カメラ機能
♪ ♪
こんにちは「音声処理の新機能」へようこそ Core Audioチームの JulianですボイスオーバーIPアプリケーションは同僚や友人家族とのつながりを維持するためにこれまで以上に不可欠です音声チャットの音質は優れたユーザー体験を提供する上で重要な役割を果たしますどのような状況でも素晴らしいサウンドが得られる― オーディオ処理の実装は重要ですが難しいことでもありますだからこそAppleが音声処理APIを提供しますあなたのアプリでチャットする際に音響環境や使用するApple製品や接続されるオーディオアクセサリに関わらず誰もが常に最高のオーディオ体験を楽しむことができます Appleの音声処理APIは FaceTimeや電話アプリを含む多くのアプリによって広く使用されていますまたクラス最高のオーディオ信号処理を提供しますエコーキャンセレーションやノイズ抑制自動ゲインコントロールなどによりボイスチャットの音声を向上させるのですその性能は音響エンジニアによって Apple製品の各モデルと各種オーディオ機器との組み合わせでそれぞれの固有の音響特性を考慮して調整されています Appleの音声処理APIを選択すると標準版音声分離ワイドスペクトルなどアプリのマイクモード設定をユーザーがフルに管理できます Voice over IPアプリには Apple音声処理APIの使用を強くお勧めしますアップルの音声処理APIには 2つの選択肢がありますまずAUVoiceProcessingIOと呼ばれる I/OオーディオユニットがありますこれはI/Oオーディオユニットと直接やり取りするアプリ向けです
2つ目はAVAudioEngineで具体的にはAVAudioEngineの「音声処理」モードを有効にします
AVAudioEngineは上位APIです一般的には使いやすくオーディオを扱う際に書くべきコード量を軽減できますどちらのオプションも同じ音声処理機能を提供しますさて新しい点は何かというと音声処理APIを初めて tvOSで利用できるようになりました詳細は「Discover Continuity Camera for tvOS」をご覧くださいまた AUVoiceIOとAVAudioEngineに新しいAPIをいくつか追加し音声処理をより制御可能にし新機能の実装をサポートします
最初のAPIは他のオーディオのダッキング動作をコントロールするものです何を意味するかは後ほど説明します 2つ目のAPIはミュート通話者の検出機能をアプリに実装するサポートをしますこのセッションではこれら2つの新しいAPIの詳細に焦点を当てます最初にお話しするAPIは「Other audio ducking」ですこのAPIに取り組む前に他のオーディオとは何かおよびダッキングが重要な理由を説明します Appleの音声処理APIを使用する場合再生音声に何が起こっているのか見てみましょうあなたのアプリは Appleの音声処理で処理され出力デバイスに再生されるボイスチャットオーディオストリームを提供していますしかし同時に他のオーディオストリームが再生されている可能性があります例えばあなたのアプリは音声処理APIを通してレンダリングされていない別のオーディオストリームを再生できます
同時に他のアプリでもオーディオを再生している可能性もありますあなたのアプリからの音声オーディオストリーム以外のすべてのオーディオストリームは Appleの音声処理によって「他のオーディオ」とみなされあなたの音声オーディオは再生前に出力デバイスに他のオーディオと混合されますボイスチャットアプリの場合は通常再生オーディオの主な焦点はボイスチャットオーディオですよって音声の明瞭度を向上させるために他の音声の音量レベルを下げています以前は他のオーディオに一定のダッキングを適用していましたこれはほとんどのアプリでうまく機能しておりあなたのアプリの現在のダッキング動作が十分に満足できるものであれば何もする必要はありませんしかしアプリによってはダッキングの動作をさらに制御したい場合もあるでしょう
まずはAUVoiceIOのAPIを検証し AVAudioEngineについてはあとで説明します AUVoiceIOの場合他のオーディオダッキング設定の構造は次の通りですこれはダッキングの2つの独立した側面のコントロールを提供しますダッキングのスタイルである mEnableAdvancedDuckingとダッキングの量であるmDuckingLevelです mEnableAdvancedDuckingについてはデフォルトでは無効になっています有効化されるとチャット参加者のどちらか一方からの音声アクティビティの存在に基づいてダッキングレベルが動的に調整されますつまり一方のユーザーが話しているときはより多くのダッキングを適用しどちらも話していないときはダッキングを減らしますこれはFaceTime SharePlayのダッキングと似ており FaceTimeの両者が話していないときはメディア再生の音量が大きく誰かが話し始めるとすぐにメディア再生の音量が小さくなります
次にmDuckingLevelについてコントロールには4つのレベルがありますデフォルト（Default）最小（Min）中程度（Mid）最大（Max）ですデフォルト（Default）のダッキングレベルはこれまでと同じ― ダッキング量を適用しこれは今後もデフォルトの設定となります最小（Min）レベルでは適用するダッキング量を最小限に抑えますつまり他のオーディオの音量をできるだけ大きくしたい場合に使用する設定です逆に最大（Max）ダッキングレベルはダッキング量を最大にします一般的に高いダッキングレベルを選択するとボイスチャットの明瞭度が向上します
2つのコントロールは独立して使用できます併用することでダッキングの挙動を自在にコントロールできます
ダッキング設定について説明したので次はあなたのアプリに適した設定を作成します例えばここでは高度なダッキングを有効にしダッキングレベルを最小に選択します
次に、kAUVoiceIOProperty_ OtherAudioDuckingConfigurationを介してダッキング設定を AUVoiceIOに設定します
AVAudioEngineクライアントの場合 APIは非常によく似ています以下はその他のオーディオダッキング設定の構造体定義でこれはダッキングレベルの列挙型定義です
AVAudioEngineでこのAPIを使用するにはまずエンジンの入力ノードで音声処理を有効にしてから
ダッキング設定を行います
そして最後に入力ノードに設定を入力しますアプリに非常に便利な機能を実装する際に役立つ― もう一つのAPIについて説明しますオンライン会議で同僚や友人とチャットしているつもりがしばらくしてからミュートに気づきあなたの素晴らしい指摘や面白い話を誰も聞いていないことに気づいたという経験はありませんか？気まずいですよね FaceTimeがここで行っているようにミュートされた話し手を検出する機能がアプリにあると非常に便利です
そのためミュートされた通話者の存在を検出するためのAPIを提供しています iOS 15で初めて導入され現在はmacOS 14およびtvOS 17で利用可能ですこのAPIの使い方の概略をお伝えしますまず AUVoiceIOまたは AVAudioEnginにリスナーブロックを提供しミュートされた通話者の検出時に通知を受け取る必要がありますミュートされた通話者が話し始めたり話をやめたりするたびに提供されたリスナーブロックが呼び出されますそのような通知に対する処理コードを実装してください例えばミュート中にユーザーが話し始めたことを通知した場合ミュートを解除するよう促すことができます最後に AUVoiceIOまたは AVAudioEngineのミュートAPIを使ってミュートを実装することが要件になっています
AUVoiceIOを使ったコード例をいくつか紹介します AVAudioEngineの例については後ほど説明しますまず通知を処理するリスナーブロックを用意します
このブロックにはAUVoiceIOSpeech ActivityEvent型のパラメータがあり SpeechActivityHasStartedまたは SpeechActivityHasEndedの 2つの値のうちいずれかを指定します
このリスナーブロックはミュート中スピーチアクティビティイベントが変化するたびに呼び出されます
ブロックの中ではこのイベントをどのように処理するかを実装します例えば SpeechActivityHasStarted イベントを受信したときユーザーにミュートを解除するよう促すことができますリスナーブロックの準備ができたら kAUVoiceIOProperty_MutedSpeech ActivityEventListenerを介して AUVoiceIOにブロックを登録します
ユーザーがミュートした場合ミュートAPIの kAUVoiceIOProperty_MuteOutputを使用してミュートを実装します
リスナーブロックが呼び出されるのは A)ユーザーがミュートされた時 B)スピーチアクティビティの状態が変化したときだけです
発話があってもなくても冗長な通知は発生しません
AVAudioEngineクライアントの実装もこれに非常に似ていますエンジンの入力ノードで音声処理を有効にしたら通知を処理するリスナーブロックを用意します
次にリスナーブロックを入力ノードに登録します
ミュートした場合は AVAudioEngineの音声処理ミュートAPIでミュートにします
AUVoiceIOと AVAudioEngineを使ったミュート通話者の検出機能の実装についてお伝えしました Appleの音声処理APIを採用する準備がまだの方のためにこの機能を実装するための代替手段を提供します
この代替オプションは CoreAudio HAL API つまりハードウェア抽象化レイヤーAPIを介してのみmacOSで利用可能です 2つの新しいHALプロパティがあり組み合わせて使用することで音声アクティビティを検出する際に役立ちますまず kAudioDevicePropertyVoice ActivityDetectionEnableによって入力デバイスの音声アクティビティ検出を有効にします次に HALプロパティリスナーを kAudioDevicePropertyVoice ActivityDetectionStateに登録しますこのHALプロパティリスナーは音声アクティビティの状態に変更があるたびに呼び出されますアプリがプロパティリスナーから通知を受けたらプロパティにクエリを実行して現在の値を取得します
コードの例を挙げて説明しましょう
入力デバイスで音声アクティビティ検出を有効にするにはまず HALプロパティアドレスを構築します
次にこのプロパティを入力デバイスに設定して有効にします
次に音声アクティビティ検出状態プロパティにリスナーを登録するには HALプロパティアドレスを作成しプロパティリスナーを指定します
ここでの「listener_callback」はリスナー関数の名前です
これがプロパティリスナーの実装方法の例です
リスナーはこの関数シグネチャに従います
この例ではリスナーが 1つのHALプロパティに対してのみ登録されていると仮定しますつまりこのリスナーが呼び出されたときどのHALプロパティが変更されたのか曖昧になることはありません
複数のHALプロパティの通知用に同じリスナーを登録する場合最初にinAddressesの配列を調べて何が変更されたかを正確に確認する必要があります
この通知を処理するには VoiceActivityDetectionState プロパティに問い合わせて
現在の値を取得しその値を処理する独自のロジックを実装します
音声アクティビティ検出HAL APIには何点か重要な詳細がありますまずエコーキャンセルされたマイク入力から音声アクティビティを検出するのでボイスチャットアプリに最適です
第二にこの検出はプロセスのミュート状態に関係なく機能しますこの機能を使ってミュート通話者の検出機能を実装するには音声アクティビティ状態とミュート状態を組み合わせる― 追加ロジックをアプリに実装する必要があります HAL APIクライアントがミュートを実装するには HALのプロセスミュートAPIの使用を強くお勧めしますメニューバーの録画インジケーターランプを抑制しユーザーはミュート状態でのプライバシーが保護されていることに安心できます今日の話を振り返りましょう Appleの音声処理APIについて紹介しこれをボイスオーバーIPアプリにおすすめする理由をお伝えしました AUVoiceIOと AVAudioEngineを使った― ダッキング動作のコード例を交えながら他の音声のダッキングやダッキング動作を制御するAPIについてお話しましたまた AUVoiceIOと AVAudioEngineのコード例を用いてミュート通話者の検出の実装方法についても説明しましたまたAppleの音声処理APIを採用していないクライアントのために Core Audio HAL APIを使って macOS上で音声処理を行う代替オプションも紹介しました Appleの音声処理APIを使用した― 素晴らしいアプリを皆さんが制作されるのを楽しみにしていますご視聴ありがとうございました！ ♪ ♪

// Insert code snipp297struct AUVoiceIOOtherAudioDuckingConfiguration {
	Boolean mEnableAdvancedDucking;
	AUVoiceIOOtherAudioDuckingLevel  mDuckingLevel;
};et.
typedef CF_ENUM(UInt32, AUVoiceIOOtherAudioDuckingLevel) {
	kAUVoiceIOOtherAudioDuckingLevelDefault = 0,
	kAUVoiceIOOtherAudioDuckingLevelMin = 10,
	kAUVoiceIOOtherAudioDuckingLevelMid = 20,
	kAUVoiceIOOtherAudioDuckingLevelMax = 30
};

6:48 - Other audio ducking

const AUVoiceIOOtherAudioDuckingConfiguration duckingConfig = {
	.mEnableAdvancedDucking = true,
	.mDuckingLevel = AUVoiceIOOtherAudioDuckingLevel::kAUVoiceIOOtherAudioDuckingLevelMin
};
// AUVoiceIO creation code omitted
OSStatus err = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_OtherAudioDuckingConfiguration, kAudioUnitScope_Global, 0, &duckingConfig, sizeof(duckingConfig));

6:50 - Other audio ducking

const AUVoiceIOOtherAudioDuckingConfiguration duckingConfig = {
	.mEnableAdvancedDucking = true,
	.mDuckingLevel = AUVoiceIOOtherAudioDuckingLevel::kAUVoiceIOOtherAudioDuckingLevelMin
};
// AUVoiceIO creation code omitted
OSStatus err = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_OtherAudioDuckingConfiguration, kAudioUnitScope_Global, 0, &duckingConfig, sizeof(duckingConfig));

7:20 - Other audio ducking

public struct AVAudioVoiceProcessingOtherAudioDuckingConfiguration {
	public var enableAdvancedDucking: ObjCBool 
	public var duckingLevel: AVAudioVoiceProcessingOtherAudioDuckingConfiguration.Level
}
extension AVAudioVoiceProcessingOtherAudioDuckingConfiguration {
	public enum Level : Int, @unchecked Sendable {
		case `default` = 0
		case min = 10
		case mid = 20
		case max = 30
	}
}

7:31 - Other audio ducking

let engine = AVAudioEngine()
let inputNode = engine.inputNode
do {
	try inputNode.setVoiceProcessingEnabled(true)
} catch {
	print("Could not enable voice processing \(error)")
}
let duckingConfig = AVAudioVoiceProcessingOtherAudioDuckingConfiguration(mEnableAdvancedDucking: false, mDuckingLevel: .max)
inputNode.voiceProcessingOtherAudioDuckingConfiguration = duckingConfig

7:32 - Muted talker detection AUVoiceIO

AUVoiceIOMutedSpeechActivityEventListener listener =  ^(AUVoiceIOMutedSpeechActivityEvent event) {		
    if (event == kAUVoiceIOSpeechActivityHasStarted) {
		// User has started talking while muted. Prompt the user to un-mute
	} else if (event == kAUVoiceIOSpeechActivityHasEnded) {
		// User has stopped talking while muted
	}
};
OSStatus err = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_MutedSpeechActivityEventListener, kAudioUnitScope_Global, 0, &listener,  sizeof(AUVoiceIOMutedSpeechActivityEventListener));
// When user mutes
UInt32 muteUplinkOutput = 1;
result = AudioUnitSetProperty(auVoiceIO, kAUVoiceIOProperty_MuteOutput, kAudioUnitScope_Global, 0, &muteUplinkOutput, sizeof(muteUplinkOutput));

11:08 - Muted talker detection AVAudioEngine

let listener =  { (event : AVAudioVoiceProcessingSpeechActivityEvent) in
	if (event == AVAudioVoiceProcessingSpeechActivityEvent.started) {
		// User has started talking while muted. Prompt the user to un-mute
	} else if (event == AVAudioVoiceProcessingSpeechActivityEvent.ended) {
		// User has stopped talking while muted
	}
}
inputNode.setMutedSpeechActivityEventListener(listener)
// When user mutes
inputNode.isVoiceProcessingInputMuted = true

12:31 - Voice activity detection - implementation with HAL APIs

// Enable Voice Activity Detection on the input device
const AudioObjectPropertyAddress kVoiceActivityDetectionEnable{
        kAudioDevicePropertyVoiceActivityDetectionEnable,
        kAudioDevicePropertyScopeInput,
        kAudioObjectPropertyElementMain };
OSStatus status = kAudioHardwareNoError;
UInt32 shouldEnable = 1;
status = AudioObjectSetPropertyData(deviceID, &kVoiceActivityDetectionEnable, 0, NULL, sizeof(UInt32), &shouldEnable);
// Register a listener on the Voice Activity Detection State property
const AudioObjectPropertyAddress kVoiceActivityDetectionState{
        kAudioDevicePropertyVoiceActivityDetectionState,
        kAudioDevicePropertyScopeInput,
        kAudioObjectPropertyElementMain };
status = AudioObjectAddPropertyListener(deviceID, &kVoiceActivityDetectionState, (AudioObjectPropertyListenerProc)listener_callback, NULL); // “listener_callback” is the name of your listener function

13:13 - Voice activity detection - listener_callback implementation

OSStatus listener_callback(
    AudioObjectID                 inObjectID,
    UInt32                        inNumberAddresses,
    const AudioObjectPropertyAddress*   __nullable inAddresses,
    void* __nullable              inClientData)
{
  // Assuming this is the only property we are listening for, therefore no need to go through inAddresses
       UInt32 voiceDetected = 0;
     UInt32 propertySize = sizeof(UInt32);
     OSStatus status = AudioObjectGetPropertyData(inObjectID, &kVoiceActivityState, 0, NULL, &propertySize, &voiceDetected);
  
       if (kAudioHardwareNoError == status) {
 if (voiceDetected == 1) {
    // voice activity detected
	} else if (voiceDetected == 0) {
		    // voice activity not detected
	}
 }
 return status;
};

関連する章

リソース

関連ビデオ

WWDC23