SpeechAnalyzer：高度な音声テキスト変換をアプリに追加

SpeechAnalyzer：高度な音声テキスト変換をアプリに追加

新しいSpeechAnalyzer APIによる音声テキスト変換について説明します。メモ、ボイスメモ、ジャーナルなどの機能をパワーアップするSwift APIとその機能について学びましょう。音声をテキストに変換する仕組みを紹介し、エキサイティングで高性能な機能を実現するSpeechAnalyzerとSpeechTranscriberについて詳しく解説します。Code Alongでは、SpeechAnalyzerとライブトランスクリプションをアプリに取り入れる方法を紹介します。

関連する章
- 0:00 - イントロダクション
- 2:41 - SpeechAnalyzer API
- 7:03 - SpeechTranscriberモデル
- 9:06 - 音声テキスト変換機能の構築
リソース
関連ビデオ

WWDC23
- パーソナルボイスとカスタムボイスによる音声合成技術の拡張
こんにちは Speechフレームワークチームのエンジニア Donovanです Notesチームのエンジニア Shantiniです今年は音声テキスト変換のAPIとテクノロジーの次なる進化形である SpeechAnalyzerを皆さんにご紹介できることを嬉しく思いますこのセッションでは SpeechAnalyzer APIとその最も重要な概念について説明しますまたこのAPIを支えるモデルの新機能についても簡単にご紹介します最後にこのAPIの使用方法をライブコーディングデモでお見せします SpeechAnalyzerは既に多くのシステムアプリの機能に利用されていますメモボイスメモジャーナルなどです
SpeechAnalyzerをApple Intelligenceと組み合わせることで通話の要約など非常に強力な機能を作成できます後ほどこのAPIを使って独自のライブ文字起こし機能を構築する方法を実演しますその前に Donovanが新しい SpeechAnalyzer APIの概要を説明します音声テキスト変換は自動音声認識（ASR）とも呼ばれ優れたユーザー体験を提供できる汎用性の高いテクノロジーですライブまたは録音の音声をテキスト形式に変換してデバイスが容易に表示解釈できるようにしますアプリはそのテキストをリアルタイムで保存検索送信できるほかテキストベースの大規模言語モデルに渡すこともできます
iOS 10では SFSpeechRecognizerが導入されましたこのクラスによってSiriを強化する音声テキスト変換モデルが利用可能になりました短い音声入力では高い精度で動作しリソースに制約のあるデバイスでも Appleのサーバを活用できましたしかし一部のユースケースには期待されたほど十分に対応できずまた言語の追加もユーザーに依存していましたそこで iOS 26では全プラットフォーム向けに新しいAPIを導入します SpeechAnalyzerは幅広いユースケースに対応し高性能な処理を可能にします新しいAPIはSwiftの機能を活用して音声テキスト変換処理を実行しますまたユーザーのデバイスでモデルのアセットを管理できわずかなコードで実装できますこのAPIに加えて Appleは新しい音声テキスト変換モデルを提供しておりこれは既にさまざまなプラットフォームでアプリの機能強化に利用されていますこの新しいモデルは従来のSFSpeechRecognizerを通じて利用可能だったモデルよりも高速かつ柔軟に動作しますこのモデルは講義や会議会話などの長時間の音声や遠くの音声にも適していますこれらの改善により Appleはこの新しいモデル（と新しいAPI）を先ほど紹介したメモなどのアプリで使用していますこれらの新機能を活用することで独自のアプリを構築してメモなどのApple標準アプリと同様の音声テキスト変換機能を実装できますまずこのAPIの設計を確認しましょうこのAPIはSpeechAnalyzerクラスと他のいくつかのクラスで構成されています SpeechAnalyzerクラスは分析セッションを管理しますセッションに「module」クラスを追加して特定の種類の分析を実行できますセッションに文字起こしモジュールを追加すると文字起こしセッションになり音声テキスト変換処理を実行できます音声のバッファをアナライザーインスタンスに渡すと文字起こしモジュールを介してルーティングされ音声テキスト変換モデルで処理されますこのモデルは音声と一致するテキストを予測しそのテキストをメタデータと共にアプリに返します
この処理はすべて非同期で実行されますアプリは利用可能になった音声を 1つのタスクで追加しその結果を別のタスクで独立して表示またはさらに処理できます Swiftの非同期シーケンスは入力と結果をバッファリングし処理を分離します
WWDC21の「Meet AsyncSequence」セッションで入力シーケンスの提供や結果シーケンスの読み取りの方法を説明しています
入力と結果を関連付けるために APIは対応する音声のタイムコードを使用します実際すべてのAPI操作は音声タイムラインのタイムコードを使用してスケジュールされ呼び出しの順序にかかわらず処理の順序は予測可能になりますタイムコードは個々のオーディオサンプルのレベルまで精密に設定されています文字起こしモジュールは順番に結果を出力してそれぞれの範囲をカバーしながら重複しないようにしていますこれは通常の処理ですただしオプション機能として特定のオーディオの範囲内で文字起こしを反復的に行うことができますこの処理によってより即時性の高いフィードバックをアプリのUIで提供できます大まかな結果をすぐに表示した後次の数秒間でより精度の高い結果を表示できますすぐに表示される大まかな結果を「暫定結果」と呼びますこれらの結果は発話とほぼ同時に出力されますが精度の低い推測ですただしこのモデルは追加の音声とコンテキストを取得することで精度を向上させます最終的に結果は可能な限り最良の精度になり文字起こしモジュールは最後の「確定結果」を出力します一度確定結果を出力すると文字起こしモジュールはこの音声範囲に対する処理を終了して次の範囲に進みますタイムコードを見ると後から改善された結果が以前の結果を置き換えていることがわかりますこれは暫定結果を有効にした場合にのみ発生します通常文字起こしモジュールは確定結果のみを出力し以前の結果を置き換えることはありませんファイルを読み込んで文字起こしの結果を返すだけであれば 1つの関数だけで文字起こし機能を構築できますこの処理では暫定結果の処理や多くの並行処理は必要ありませんこれが関数ですここでは文字起こしモジュールを作成します文字起こしの対象となるロケールを指定しますまだ結果はありませんが逐次データを読み取って AsyncSequence版の"reduce"を使用して連結していきますこの処理は"async let"を使用してバックグラウンドで行いますここではアナライザーを作成し文字起こしモジュールを追加しています次にファイルの分析を開始します analyzeSequenceメソッドはファイルから音声を読み取りその音声を入力シーケンスに追加しますファイルが読み取りが完了したらアナライザーに終了を指示します追加の音声処理を行う予定がないからです最後にバックグラウンドで生成していた文字起こしの結果を返しますこれはファイル内の発話の内容であり単一の属性付き文字列の形式で提供されますこれで完了です
ここまでAPIの概念と基本的な使い方を説明しました分析セッションに文字起こしを実行するモジュールを追加していますこれは同時および非同期に動作し音声入力と出力結果の処理を切り離しています音声結果その他の操作はセッションの音声タイムラインを使用して関連付けますこれらの結果の一部は必要に応じて暫定結果として提供され残りは確定結果であり変更されませんまた1つの関数のユースケースで各要素がどのように連携しているかを示しました後ほど Shantiniが1つの関数で行っていた処理を複数のビューモデルビューモデルに拡張する方法を実演します ShantiniはSpeechAnalyzerクラスや Transcriberクラスのいくつかのメソッドやプロパティを紹介し一般的なニーズを対処する方法を説明しますこれらについてはドキュメントでも確認できますここからは SpeechTranscriberクラスの新しい音声テキスト変換モデルが持つメリットについて説明します SpeechTranscriberはAppleによって設計された最新のモデルによって強化され幅広いユースケースに対応しています私たちは長時間の音声や会話形式のユースケースに対応できるモデルを開発したいと考えました会議の録音のように一部の話者がマイクの近くにいない場合にも対応できるようにしていますまた低遅延が求められるライブでの文字起こし体験を実現しながら精度や可読性を犠牲にすることなく音声のプライバシーにも配慮しています私たちの新しいオンデバイスモデルはそのすべてを実現します社内のパートナーと緊密に連携し開発者の皆さんに優れた体験を提供できるように設計しました現在は皆さん自身のアプリで同じユースケースに対応できるようになりました SpeechTranscriberを使用することで強力な音声テキスト変換モデルを自分で調達管理することなく利用できます関連するモデルアセットを新しい AssetInventory APIを使用してインストールするだけですこれらは必要に応じてダウンロードできますモデルはシステムストレージに保持されるためアプリのダウンロードサイズやストレージ使用量は増加しませんランタイムメモリサイズも増加しませんこのモデルはアプリのメモリ空間の外部で動作するためサイズ制限を超えることを心配する必要はありませんモデルは継続的に改善されており新しいアップデートが利用可能になると自動的にインストールされます SpeechTranscriberは現在これらの言語に対応しており今後さらに増える予定です watchOSを除き特定のハードウェア要件を満たすすべてのプラットフォームで利用できます対応していない言語やデバイスが必要な場合は代わりに DictationTranscriberクラスを利用できますこのクラスがサポートする言語や音声テキスト変換モデルデバイスは iOS 10のオンデバイス SFSpeechRecognizerと同じですただし SFSpeechRecognizerの改善によりユーザーが設定アプリで特定の言語用に Siriやキーボードの音声入力をオンにする必要がなくなりました新しいAPIとモデルの概要の紹介は以上ですかなり抽象的でしたがここからは具体的な説明ですではShantiniに交代して SpeechAnalyzerをアプリに統合する方法を説明してもらいましょう概要の説明をありがとう Donovan iOS 18でメモアプリに追加されたすばらしい機能はご覧になったでしょうか通話ライブ音声録音された音声を記録し文字起こしすることができますさらにこれらの機能を Apple Intelligenceと統合することで実用的で時間を節約できる要約が生成されるようになりました Speechチームと緊密に連携し SpeechAnalyzerと SpeechTranscriberを活用することで高品質なメモアプリの機能を提供できるようにしました SpeechTranscriberは動作が高速で遠くからでも高精度な認識が可能でありオンデバイスモデルとして最適です私たちの追加の目標の1つは開発者である皆さんがメモアプリに追加されたような機能を構築しユーザーのニーズに合わせてカスタマイズできるようにすることですぜひそのお手伝いをさせてくださいライブ文字起こし機能を備えた作成中のアプリを見てみましょう私のアプリは子ども向けで寝る前の物語を録音して文字起こしし後でそれらを再生できるようにしますこれがリアルタイムでの文字起こしの結果です
音声を再生すると対応するテキストのセグメントがハイライトされ子どもたちはストーリーを追うことができますそれではプロジェクトのセットアップを見てみましょう
このサンプルアプリコードでは Recorderクラスと SpokenWordTranscriberクラスを使用していますどちらもオブザーバブルにしています
またこのStoryモデルを作成して文字起こしの情報と表示に必要なその他の関連情報をカプセル化します最後に文字起こしビューとライブ文字起こしビューと再生ビューそして録音ボタンと再生ボタンがありますこのアプリは録音と再生の状態も処理しますまず文字起こし機能をチェックしましょうライブ文字起こしは 3つの簡単なステップで設定できます SpeechTranscriberを設定しモデルが存在することを確認して結果を処理します SpeechTranscriberのセットアップではロケールオブジェクトと必要なオプションを使用して初期化しますロケールの言語コードは文字起こしの対象となる言語に対応しています Donovanが先ほど強調したように暫定結果はリアルタイムの推測であり確定結果は最良の推測ですここでは両方の結果が使用されています暫定結果は薄い色で表示され結果が確定されるとそれに置き換えられます SpeechTranscriberでこれを設定するために次のようなオプションタイプを設定しますタイミング情報を取得するために audioTimeRangeオプションを追加しています
これによりテキストの再生を音声と同期できるようになります
さまざまなオプションを提供する事前設定済みのプリセットもあります
これからセットアップするのは SpeechAnalyzerオブジェクトと SpeechTranscriberモジュールです
これにより必要なオーディオフォーマットを取得できるようになります
また音声テキスト変換モデルが配置されていることも確認できます
SpeechTranscriberのセットアップを完了するために AsyncStream入力への参照を保存しアナライザーを起動します
SpeechTranscriber のセットアップが完了したのでモデルを取得する方法を確認しましょうこの「モデル確認」メソッドでは SpeechTranscriberが必要な言語での文字起こしをサポートしていることを確認する処理を追加します
また言語がダウンロードされインストールされていることも確認します
言語がサポートされているがダウンロードされていない場合は AssetInventoryにリクエストを送信してサポートをダウンロードできます
文字起こしは完全にデバイス上で行われますがモデルは取得する必要がありますダウンロードリクエストには `progress`オブジェクトが含まれておりこれを使用してユーザーに処理の進行状況を知らせることができます
アプリの言語サポートで一度に対応できる言語の数が制限されている場合があります上限を超えている場合は AssetInventoryにリクエストして 1つ以上の言語の割り当てを解除し空き枠を確保できます
モデルが取得できたので楽しい部分つまり結果に取りかかりましょう
SpeechTranscriberのセットアップコードの隣にタスクを作成しその参照を保存しています
暫定結果と確定結果のトラッキング用に 2つの変数も作成しています
SpeechTranscriberは AsyncStreamを介して結果を返します各結果オブジェクトには何種類かのフィールドがあります
最初に取得したいのは`text`です AttributedStringで表されていますこれは音声セグメントの文字起こしの結果ですストリームで結果を取得するたびに暫定的な結果か確定した結果かを確認するために `isFinal`プロパティを使用します
暫定結果の場合は volatileTranscriptに保存します
確定結果を取得するたびに volatileTranscriptをクリアしその結果を finalizedTranscriptに追加します
暫定結果をクリアしないと重複が発生する可能性があります
確定結果を取得するたびに後で使用するために Storyモデルに書き込みます
また条件付き書式を設定するために SwiftUIのAttributedString APIを使用しています
これにより文字起こしの結果を視覚化し暫定から確定への移行を示すことができます
文字起こしのタイミングデータを取得する方法が気になりますかありがたいことにこれは属性付き文字列に含まれています
各実行には`audioTimeRange` 属性が含まれており CMTimeRange形式で表されますビューコードでこれを使用して適切なセグメントをハイライトします次に音声入力の設定方法を確認しましょう
ユーザーが「Record」を押したときに呼び出されるrecord関数内で音声の許可をリクエストし AVAudioSessionを開始しますまたプロジェクトの設定でアプリがマイクを使用できるように設定されていることを確認します
次に事前に作成済みの setUpTranscriber関数を呼び出します
最後に音声ストリームからの入力を処理しますそのセットアップの方法を確認しましょうここでは複数の処理が発生します非同期ストリームを返すように AVAudioEngineを設定し受信バッファをストリームに渡します
また音声をディスクに書き込んでいます
最後に audioEngineを起動しています
Record関数に戻り AsyncStreamの入力を Transcriberに渡しています
音声ソースごとに出力フォーマットやサンプルレートが異なります SpeechTranscriberは使用可能な bestAvailableAudioFormatを提供します
音声バッファを変換ステップで処理しフォーマットがbestAvailableAudioFormat と一致するようにしています
次に非同期ストリームを SpeechTranscriberのinputBuilder オブジェクトにルーティングします録音を停止するときにいくつかの処理を行う必要があります音声エンジンと Transcriberを停止しましたタスクをキャンセルしアナライザーストリームで finalizeを呼び出すことが重要ですこれにより暫定結果が確定されますこのすべてをビューに統合する方法を確認しましょう
TranscriptViewは現在のストーリーへのバインディングと SpokenWordTranscriberへのバインディングを備えています録音中は確定した文字起こしの結果と暫定的な結果を連結して表示します暫定的な結果は SpokenWordTranscriberクラスから取得されます再生時はデータモデルから取得した最終的な文字起こしを表示します文章を分割するメソッドも追加しています視覚的にすっきりと整理するためです
前にも述べた重要な機能の1つが再生に合わせて各単語をハイライトする機能ですここではいくつかのヘルパーメソッドを使用してハイライトの対象となるテキストを計算しています基準となるのはaudioTimeRange属性と現在の再生時間です
SpeechTranscriberの精度が高い理由は数多くありますが特に Apple Intelligenceを使用して出力に高度な変換を行える点もその1つです
ここでは新しい FoundationModels APIを使用してストーリーの完成時にタイトルを生成していますこのAPIを使用すると簡単にすてきなタイトルを生成でき頭を悩ませる必要はありません FoundationModels APIの詳細については「Meet the foundation models framework」というセッションをご覧ください
このアプリを実際に試してみましょう +ボタンをタップして新しいストーリーを作成します
次に録音を開始します「昔々神秘の国マゼンタにデリラという名前の少女が丘の上の城に暮らしていましたデリラは日々森を探索しそこに住む動物の世話をして過ごしていました
作業を完了した後ユーザーが再生すると各単語が音声に合わせてハイライトされます
昔々神秘の国マゼンタにデリラという名前の少女が丘の上の城に暮らしていました
デリラは日々森を探索しそこに住む動物の世話をして過ごしていました SpeechAnalyzerとSpeechTranscriber により極めて短い時間でアプリ全体を構築できました詳細については Speechフレームワークのドキュメントをご参照くださいこれには作成したサンプルアプリも含まれています以上がSpeechAnalyzerの解説ですこれを活用してすばらしいアプリを開発してくださいご視聴ありがとうございました

// Set up transcriber. Read results asynchronously, and concatenate them together.
let transcriber = SpeechTranscriber(locale: locale, preset: .offlineTranscription)
async let transcriptionFuture = try transcriber.results
    .reduce("") { str, result in str + result.text }

let analyzer = SpeechAnalyzer(modules: [transcriber])
if let lastSample = try await analyzer.analyzeSequence(from: file) {
    try await analyzer.finalizeAndFinish(through: lastSample)
} else {
    await analyzer.cancelAndFinishNow()
}
    
return try await transcriptionFuture

11:02 - Speech Transcriber setup (volatile results + timestamps)

func setUpTranscriber() async throws {
        transcriber = SpeechTranscriber(locale: Locale.current,
                                        transcriptionOptions: [],
                                        reportingOptions: [.volatileResults],
                                        attributeOptions: [.audioTimeRange])
    }

11:47 - Speech Transcriber setup (volatile results, no timestamps)

// transcriber = SpeechTranscriber(locale: Locale.current, preset: .progressiveLiveTranscription)

11:54 - Set up SpeechAnalyzer

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
}

12:00 - Get audio format

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
    
    self.analyzerFormat = await SpeechAnalyzer.bestAvailableAudioFormat(compatibleWith: [transcriber])
}

12:06 - Ensure models

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
    
    self.analyzerFormat = await SpeechAnalyzer.bestAvailableAudioFormat(compatibleWith: [transcriber])
    
    do {
        try await ensureModel(transcriber: transcriber, locale: Locale.current)
    } catch let error as TranscriptionError {
        print(error)
        return
    }
}

12:15 - Finish SpeechAnalyzer setup

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
    
    self.analyzerFormat = await SpeechAnalyzer.bestAvailableAudioFormat(compatibleWith: [transcriber])
    
    do {
        try await ensureModel(transcriber: transcriber, locale: Locale.current)
    } catch let error as TranscriptionError {
        print(error)
        return
    }
    
    (inputSequence, inputBuilder) = AsyncStream<AnalyzerInput>.makeStream()
    
    guard let inputSequence else { return }
    
    try await analyzer?.start(inputSequence: inputSequence)
}

12:30 - Check for language support

public func ensureModel(transcriber: SpeechTranscriber, locale: Locale) async throws {
        guard await supported(locale: locale) else {
            throw TranscriptionError.localeNotSupported
        }
    }
    
    func supported(locale: Locale) async -> Bool {
        let supported = await SpeechTranscriber.supportedLocales
        return supported.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

    func installed(locale: Locale) async -> Bool {
        let installed = await Set(SpeechTranscriber.installedLocales)
        return installed.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

12:39 - Check for model installation

public func ensureModel(transcriber: SpeechTranscriber, locale: Locale) async throws {
        guard await supported(locale: locale) else {
            throw TranscriptionError.localeNotSupported
        }
        
        if await installed(locale: locale) {
            return
        } else {
            try await downloadIfNeeded(for: transcriber)
        }
    }
    
    func supported(locale: Locale) async -> Bool {
        let supported = await SpeechTranscriber.supportedLocales
        return supported.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

    func installed(locale: Locale) async -> Bool {
        let installed = await Set(SpeechTranscriber.installedLocales)
        return installed.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

12:52 - Download the model

func downloadIfNeeded(for module: SpeechTranscriber) async throws {
        if let downloader = try await AssetInventory.assetInstallationRequest(supporting: [module]) {
            self.downloadProgress = downloader.progress
            try await downloader.downloadAndInstall()
        }
    }

13:19 - Deallocate an asset

func deallocate() async {
        let allocated = await AssetInventory.allocatedLocales
        for locale in allocated {
            await AssetInventory.deallocate(locale: locale)
        }
    }

13:31 - Speech result handling

recognizerTask = Task {
            do {
                for try await case let result in transcriber.results {
                    let text = result.text
                    if result.isFinal {
                        finalizedTranscript += text
                        volatileTranscript = ""
                        updateStoryWithNewText(withFinal: text)
                        print(text.audioTimeRange)
                    } else {
                        volatileTranscript = text
                        volatileTranscript.foregroundColor = .purple.opacity(0.4)
                    }
                }
            } catch {
                print("speech recognition failed")
            }
        }

15:13 - Set up audio recording

func record() async throws {
        self.story.url.wrappedValue = url
        guard await isAuthorized() else {
            print("user denied mic permission")
            return
        }
#if os(iOS)
        try setUpAudioSession()
#endif
        try await transcriber.setUpTranscriber()
                
        for await input in try await audioStream() {
            try await self.transcriber.streamAudioToTranscriber(input)
        }
    }

15:37 - Set up audio recording via AVAudioEngine

#if os(iOS)
    func setUpAudioSession() throws {
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(.playAndRecord, mode: .spokenAudio)
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    }
#endif
    
    private func audioStream() async throws -> AsyncStream<AVAudioPCMBuffer> {
        try setupAudioEngine()
        audioEngine.inputNode.installTap(onBus: 0,
                                         bufferSize: 4096,
                                         format: audioEngine.inputNode.outputFormat(forBus: 0)) { [weak self] (buffer, time) in
            guard let self else { return }
            writeBufferToDisk(buffer: buffer)
            self.outputContinuation?.yield(buffer)
        }
        
        audioEngine.prepare()
        try audioEngine.start()
        
        return AsyncStream(AVAudioPCMBuffer.self, bufferingPolicy: .unbounded) {
            continuation in
            outputContinuation = continuation
        }
    }

16:01 - Stream audio to SpeechAnalyzer and SpeechTranscriber

func streamAudioToTranscriber(_ buffer: AVAudioPCMBuffer) async throws {
        guard let inputBuilder, let analyzerFormat else {
            throw TranscriptionError.invalidAudioDataType
        }
        
        let converted = try self.converter.convertBuffer(buffer, to: analyzerFormat)
        let input = AnalyzerInput(buffer: converted)
        
        inputBuilder.yield(input)
    }

16:29 - Finalize the transcript stream

try await analyzer?.finalizeAndFinishThroughEndOfInput()

関連する章

リソース

関連ビデオ

WWDC23