借助 SpeechAnalyzer 将先进的语音转文本功能引入 App

借助 SpeechAnalyzer 将先进的语音转文本功能引入 App

探索带来语音转文本功能的全新 SpeechAnalyzer API。我们将了解这一 Swift API 及其丰富的功能，这些功能为“备忘录”“语音备忘录”“手记”等 App 提供了支持。我们将深入探讨相关细节，了解语音转文本功能的运作方式，以及 SpeechAnalyzer 和 SpeechTranscriber 如何助你构建精彩、实用的功能。你还将跟着视频学习如何通过编程将 SpeechAnalyzer 和实时转录功能整合到 App 中。

章节
- 0:00 - 简介
- 2:41 - SpeechAnalyzer API
- 7:03 - SpeechTranscriber 模型
- 9:06 - 构建语音转文本功能
资源
相关视频

WWDC23
- 使用个人和自定义声音扩展语音合成
大家好！我叫 Donovan 是 Speech 框架团队的一名工程师我叫 Shantini 是备忘录团队的一名工程师今年我们很高兴为大家带来全新一代的语音转文本 API 和技术： SpeechAnalyzer 在这个讲座中我们将为大家介绍 SpeechAnalyzer API 及其最重要的概念我们还会简单介绍这个 API 背后的模型的一些新功能最后我们将演示一个实时编码帮助大家了解如何使用这个 API 很多系统 App 的功能都在使用 SpeechAnalyzer 了相应 App 包括“备忘录”、 “语音备忘录”、“手记”等
通过将 SpeechAnalyzer 与 Apple 智能相结合我们打造了极其强大的功能例如 Call Summarization 稍后我将为大家展示如何使用这个 API 构建自己的实时转录功能首先有请 Donovan 为大家简单介绍全新的 SpeechAnalyzer API 语音转文本也叫做自动语音识别或 ASR 是一种用途很广泛的技术可帮助你打造出色的用户体验这项技术将实时语音或录制的语音转换为文本形式以便轻松在设备上显示或解读 App 可以实时储存、搜索或传输这些文本或将文本传递给基于文本的大语言模型
在 iOS 10 中我们推出了 SFSpeechRecognizer 通过这个类你可以访问为 Siri 提供支持的语音转文本模型这个类适用于简短的听写如果设备资源有限它可以使用 Apple 服务器但它并没有像我们期望的那样满足某些用例的需求还需要用户添加语言现在在 iOS 26 中我们将为所有平台引入一个新的 API 称为 SpeechAnalyzer 它支持更多用例效果也更好新的 API 利用 Swift 的强大功能来执行语音转文本处理并且只需使用很少的代码便可以在用户设备上管理模型资源除了这个 API 我们还提供了一个全新的语音转文本模型我们平台上很多应用程序的功能已经在使用这个模型了新模型更快也更灵活优于以前通过 SFSpeechRecognizer 提供的模型它适用于时长较长的音频和远距离音频场景如讲座会议和对话基于这些改进 Apple 的这个新模型 (以及新 API) 已经在“备忘录”和我们前面提到的其他应用程序中得到了应用你可以使用这些新功能来构建自己的应用程序提供类似的语音转文本功能就像“备忘录”和我们的其他应用程序那样首先我们来看看 API 的设计这个 API 由 SpeechAnalyzer 类以及其他几个类组成 SpeechAnalyzer 类管理分析会话你可以在会话中添加一个“module”类用于执行特定类型的分析在会话中添加转录器模块可使它成为转录会话用于执行语音转文本处理你将音频缓冲区传递给分析器实例后者随后将通过转录器和它的语音转文字模型来路由这些缓冲区模型预测与语音音频对应的文本接着将相应文本连同一些元数据返回给应用程序
一切都以异步方式进行当一个任务中有可用的音频时你的应用程序可以添加音频并在另一个任务中单独显示结果或进行进一步处理 Swift 的异步序列对输入进行缓冲并将输入与结果解耦
WWDC21 的 “了解 AsyncSequence”讲座介绍了如何提供输入序列以及如何读取结果序列
为了将输入与结果相关联这个 API 使用相应音频的时间码事实上所有 API 操作都是使用音频时间线上的时间码来排定时间的因此它们的顺序是可预测的并且与被调用的时间无关时间码精确到单个音频样本请注意转录器如何按顺序提供结果每个结果都覆盖了自己的音频范围且不会重叠它通常就是这样运作的但是作为可选功能你可以在音频范围内迭代转录如果希望在应用程序的 UI 中提供即时反馈你可能需要这样做你可以立即显示粗略的结果然后在接下来的几秒钟内显示这个结果的更优迭代版本我们将立即得到的粗略结果称为“临时结果” 临时结果基本会在第一时间提供但它们只是准确性较低的猜测不过随着音频和上下文的增加模型会改进自身的转录结果最终结果会尽可能达到最佳状态并且转录器提供一个最终结果提供最终结果后转录器就不会继续再为这段音频提供任何结果并会开始处理下一段音频请留意时间码看看后来改进的结果如何替换之前的结果仅当启用临时结果时才会出现这种情况通常情况下转录器只提供最终的结果这些结果均不会替换以前的结果如果你只需要读取文件并返回转录文本那么只需一个函数就能构建一个转录功能这项任务不需要处理临时结果或太多并发的操作这里显示了相应函数我们在这里创建了转录器模块我们要告诉它转录的目标语言它还没有提供任何结果但我们会在出现结果时读取并使用“reduce”的 AsyncSequence 版本来连接它们我们将在后台使用“async let”来完成这项操作现在我们创建分析器并添加转录器模块然后我们开始分析文件 analyzeSequence 方法从文件中读取并将它的音频添加到输入序列中当文件被读取后我们告诉分析器完成操作因为我们不打算继续处理其他音频最后我们将返回在后台处理的转录这就是文件中的语音内容以单个带属性的字符串形式显示大功告成了
现在我已经介绍了这个 API 的概念和基本用法你可以将模块添加到分析会话中以执行转录等任务它可以并发和异步工作将音频输入与结果解耦你可以使用会话的音频时间线将音频、结果和操作关联起来其中一些结果是临时的 (如果你希望它们是临时的) 其余的结果都是最终结果不会改变我还展示了如何将各个部分整合到一个函数的用例中稍后 Shantini 将演示如何将这个函数的功能扩展到不同的视图、模型和视图模型她将展示 SpeechAnalyzer 和 Transcriber 类的几个方法和属性它们可以满足一些基本使用需求你也可以在文档中阅读相关内容现在我们来介绍一下 SpeechTranscriber 类的新语音转文本模型的好处 SpeechTranscriber 由 Apple 设计的全新模型驱动能支持很多应用场景我们想要创建一个可以支持长文本和对话式用例的模型在用例中某些讲话人可能离麦克风较远例如在录制会议时我们还希望支持实时转录既要保证低延迟同时又不能牺牲准确性或可读性我们希望保持讲话内容的私密性我们全新的设备端模型实现了所有这些目标我们与内部合作伙伴密切合作为开发者们打造了优秀的体验现在你可以在自己的应用程序中支持相同的用例有了 SpeechTranscriber 你可以获得强大的语音转文本模型你不必自己购买和管理模型只需通过新的 AssetInventory API 安装相关的模型资源即可你可以根据需要进行下载模型保留在系统存储中不会增加应用程序的下载大小或占用的存储空间也不会增加运行时占用的内存因为它在应用程序的内存空间之外运行因此不必担心会超出大小限制我们会不断改进模型因此系统将在有可用更新时自动安装更新 SpeechTranscriber 目前可以转录这些语言未来会支持更多语言并且支持除 watchOS 之外的所有平台只要硬件满足一定的要求即可如果你的目标语言或设备还不受支持我们还提供第二个转录器类： DictationTranscriber 它支持的语言、语音转文本模型和设备与 iOS 10 的设备端 SFSpeechRecognizer 相同但在改进 SFSpeechRecognizer 后你就无需让用户进入“设置” 去为任何特定语言打开 Siri 或键盘听写功能了以上就是对全新 API 和模型的介绍之前这些都很抽象现在大家应该有更具体的认识了接下来有请 Shantini 她将展示如何将 SpeechAnalyzer 整合到你的 App 中谢谢你的精彩讲述 Donovan！你可能已经用过 iOS 18 的 “备忘录”中新增的精彩功能来进行录音以及转录通话、实时音频和录制的音频此外我们还将这些功能与 Apple 智能整合在一起可以生成实用的摘要为用户节省时间我们与 Speech 团队密切合作确保 SpeechAnalyzer 和 SpeechTranscriber 能够帮助我们打造高质量的“备忘录”功能 SpeechTranscriber 是一个绝佳选择因为它速度快即使当距离较远时也能保持准确而且是在设备端运行的我们的另一个目标是让开发者能够构建功能就像我们在“备忘录”中添加的功能一样还可以对功能进行自定以满足用户的需求我希望能够帮助大家开始打造这样的功能来看看我正在构建的一款具有实时转录功能的 App 这是一款面向儿童的 App 可以录制和转录睡前故事让用户可以重复播放这是实时转录的结果
播放音频时相应的文本部分将高亮显示这样他们就可以边看边听让我们来看一下项目设置
在我的示例 App 代码中有一个 Recorder 类和一个 SpokenWordTranscriber 类我把这两个类都设置为可观察
我还创建了这个 Story 模型用来封装我们的转录信息以及其他要显示的相关详细信息最后我展示一下转录视图它包含实时转录和播放视图以及录制和播放按钮它还会处理录制和播放状态我们先来看看转录设置实时转录只需 3 个简单步骤：配置 SpeechTranscriber 确保模型已经存在处理结果我们先来设置 SpeechTranscriber 需要使用一个 locale 对象和我们需要的选项来进行初始化 locale 的语言代码对应的是我们要转录的目标语言正如 Donovan 之前介绍的临时结果是实时给出的猜测结果最终结果是最后给出的最佳猜测结果我们同时提供这两种结果临时结果用较浅的不透明颜色显示最后会被最终的结果所替代要在 SpeechTranscriber 中配置这一显示方式我们要设置这些选项类型我添加了 audioTimeRange 选项以便获得时间信息
这样能同步播放文本和音频
这里还有几个提供不同选项的预配置预设
现在我们将使用我们的 SpeechTranscriber 模块设置 SpeechAnalyzer 对象
这样我们就可以使用自己需要的音频格式了
我们现在还可以确保语音转文本模型已准备就绪
在完成 SpeechTranscriber 设置时我们要保存对 AsyncStream 输入的引用并启动分析器
现在我们已经完成了 SpeechTranscriber 的设置我们来看看如何获取模型在我们的“ensure model”方法中我们将添加检查来确认 SpeechTranscriber 是否支持转录我们的目标语言
我们还将检查是否已下载并安装这种语言
如果支持这种语言但没有下载我们可以继续向 AssetInventory 发送下载支持请求
请记住转写功能完全在设备端进行但需要获取模型下载请求包含一个“progress”对象你可以用它来让用户了解下载的进展情况
你的 App 一次只能支持有限数量的语言如果超过限制可以让 AssetInventory 取消分配其中一个或多个语言以满足限制要求
现在我们已经得到了模型接下来看看最精彩的部分：结果
在 SpeechTranscriber 设置代码旁我要创建一个任务并保存对它的引用
我还创建了两个变量来跟踪我们的临时结果和最终结果
SpeechTranscriber 通过 AsyncStream 返回结果每个结果对象都有几个不同的字段
我们首先要获取的是“text” 它由 AttributedString 表示这是一段音频的转录结果每次我们在流中获取返回的结果时我们需要检查是临时结果还是最终结果方法是使用“isFinal”属性
如果是临时结果我们会将它保存到 volatileTranscript
每当我们得到最终结果时便会清理 volatileTranscript 并将结果添加到 finalizedTranscript
如果我们不清理临时结果我们最终可能会得到重复的结果
每当得到最终结果时我们就把它写下来添加到 Story 模型中供以后使用
我还要设置一些条件格式使用的是 SwiftUI AttributedString API
这样我们就能直观地显示转录结果从临时结果变为最终结果的整个过程
如果想知道我如何获得转录文本的时间数据只需要看看 attributedstring
每次运行都有“audioTimeRange” 属性用 CMTimeRange 表示我将在视图代码中用它来突出显示正确的片段接下来我们看看如何设置音频输入
在我的 record 函数中 (当用户按下“Record”时会调用这个函数) 我将请求音频权限并启动 AVAudioSession 我们还应该确保已在项目设置中将 App 配置为使用麦克风
然后我将调用我之前创建的 setUpTranscriber 函数
最后我将处理音频流的输入来看看我是如何设置的涉及的操作包括：将 AVAudioEngine 配置为返回异步流并将传入的缓冲区传递给流
我们还将音频写入磁盘
最后启动 audioEngine
回到我的 Record 函数我把 AsyncStream 输入传递给转录器
音频源具有不同的输出格式和采样率 SpeechTranscriber 给了我们一个 bestAvailableAudioFormat 供我们使用
我通过一个转换步骤来传递音频缓冲区以确保格式与 bestAvailableAudioFormat 匹配
然后我会将异步流从 SpeechTranscriber 路由至 inputBuilder 对象停止录制时我们还需要完成几个操作我停止了音频引擎和转录器一定记得要取消任务还要在分析器流上调用 finalize 这样是为了确保用最终结果代替临时结果我们来看看如何将所有这些与视图联系起来
我的 TranscriptView 绑定了一个当前的 story 还绑定了我们的 SpokenWordTranscriber 如果正在录制便会显示最终脚本与我们从 SpokenWordTranscriber 类中观测到的临时转录结果的关联在播放时我们可以看到数据模型的最终脚本我添加了一个方法来分解句子让它看起来更清晰一些
我提到的一个关键功能是在播放时突出显示每个词我使用了一些辅助方法来计算是否每次运行时都要突出显示具体取决于它的 audioTimeRange 属性和当前播放时间
SpeechTranscriber 的准确性非常高原因有很多其中最重要的是能够使用 Apple 智能对输出进行有用的转换
在这里我使用新的 FoundationModels API 在故事完成时为它生成一个标题这个 API 能帮我轻松创建巧妙的标题所以我不用自己绞尽脑汁如需进一步了解 FoundationModels API 请观看讲座 “了解 Foundation Models 框架”
我们来看看这个功能如何发挥作用！我将轻点“+”号按钮创建一个新故事
然后我开始录制很久很久以前在神秘的红土地上有一个名叫 Delilah 的小女孩她住在山上的一座城堡里 Delilah 每天都在森林里玩耍并照料森林里的动物
录制完成时用户可以播放每个字都会随着音频高亮显示
很久很久以前在神秘的红土地上有一个名叫 Delilah 的小女孩她住在山上的一座城堡里
Delilah 每天都在森林里玩耍并照料森林里的动物借助 SpeechAnalyzer 和 SpeechTranscriber 我们构建了一个完整的 App 并只花费了很少的时间如需了解更多信息请查看 Speech 框架文档其中包括我们创建的示例 App 以上就是关于 SpeechAnalyzer 的完整介绍！你也可以用它来构建令人惊叹的功能感谢大家的观看！

// Set up transcriber. Read results asynchronously, and concatenate them together.
let transcriber = SpeechTranscriber(locale: locale, preset: .offlineTranscription)
async let transcriptionFuture = try transcriber.results
    .reduce("") { str, result in str + result.text }

let analyzer = SpeechAnalyzer(modules: [transcriber])
if let lastSample = try await analyzer.analyzeSequence(from: file) {
    try await analyzer.finalizeAndFinish(through: lastSample)
} else {
    await analyzer.cancelAndFinishNow()
}
    
return try await transcriptionFuture

11:02 - Speech Transcriber setup (volatile results + timestamps)

func setUpTranscriber() async throws {
        transcriber = SpeechTranscriber(locale: Locale.current,
                                        transcriptionOptions: [],
                                        reportingOptions: [.volatileResults],
                                        attributeOptions: [.audioTimeRange])
    }

11:47 - Speech Transcriber setup (volatile results, no timestamps)

// transcriber = SpeechTranscriber(locale: Locale.current, preset: .progressiveLiveTranscription)

11:54 - Set up SpeechAnalyzer

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
}

12:00 - Get audio format

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
    
    self.analyzerFormat = await SpeechAnalyzer.bestAvailableAudioFormat(compatibleWith: [transcriber])
}

12:06 - Ensure models

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
    
    self.analyzerFormat = await SpeechAnalyzer.bestAvailableAudioFormat(compatibleWith: [transcriber])
    
    do {
        try await ensureModel(transcriber: transcriber, locale: Locale.current)
    } catch let error as TranscriptionError {
        print(error)
        return
    }
}

12:15 - Finish SpeechAnalyzer setup

func setUpTranscriber() async throws {
    transcriber = SpeechTranscriber(locale: Locale.current,
                                    transcriptionOptions: [],
                                    reportingOptions: [.volatileResults],
                                    attributeOptions: [.audioTimeRange])
    
    guard let transcriber else {
        throw TranscriptionError.failedToSetupRecognitionStream
    }

    analyzer = SpeechAnalyzer(modules: [transcriber])
    
    self.analyzerFormat = await SpeechAnalyzer.bestAvailableAudioFormat(compatibleWith: [transcriber])
    
    do {
        try await ensureModel(transcriber: transcriber, locale: Locale.current)
    } catch let error as TranscriptionError {
        print(error)
        return
    }
    
    (inputSequence, inputBuilder) = AsyncStream<AnalyzerInput>.makeStream()
    
    guard let inputSequence else { return }
    
    try await analyzer?.start(inputSequence: inputSequence)
}

12:30 - Check for language support

public func ensureModel(transcriber: SpeechTranscriber, locale: Locale) async throws {
        guard await supported(locale: locale) else {
            throw TranscriptionError.localeNotSupported
        }
    }
    
    func supported(locale: Locale) async -> Bool {
        let supported = await SpeechTranscriber.supportedLocales
        return supported.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

    func installed(locale: Locale) async -> Bool {
        let installed = await Set(SpeechTranscriber.installedLocales)
        return installed.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

12:39 - Check for model installation

public func ensureModel(transcriber: SpeechTranscriber, locale: Locale) async throws {
        guard await supported(locale: locale) else {
            throw TranscriptionError.localeNotSupported
        }
        
        if await installed(locale: locale) {
            return
        } else {
            try await downloadIfNeeded(for: transcriber)
        }
    }
    
    func supported(locale: Locale) async -> Bool {
        let supported = await SpeechTranscriber.supportedLocales
        return supported.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

    func installed(locale: Locale) async -> Bool {
        let installed = await Set(SpeechTranscriber.installedLocales)
        return installed.map { $0.identifier(.bcp47) }.contains(locale.identifier(.bcp47))
    }

12:52 - Download the model

func downloadIfNeeded(for module: SpeechTranscriber) async throws {
        if let downloader = try await AssetInventory.assetInstallationRequest(supporting: [module]) {
            self.downloadProgress = downloader.progress
            try await downloader.downloadAndInstall()
        }
    }

13:19 - Deallocate an asset

func deallocate() async {
        let allocated = await AssetInventory.allocatedLocales
        for locale in allocated {
            await AssetInventory.deallocate(locale: locale)
        }
    }

13:31 - Speech result handling

recognizerTask = Task {
            do {
                for try await case let result in transcriber.results {
                    let text = result.text
                    if result.isFinal {
                        finalizedTranscript += text
                        volatileTranscript = ""
                        updateStoryWithNewText(withFinal: text)
                        print(text.audioTimeRange)
                    } else {
                        volatileTranscript = text
                        volatileTranscript.foregroundColor = .purple.opacity(0.4)
                    }
                }
            } catch {
                print("speech recognition failed")
            }
        }

15:13 - Set up audio recording

func record() async throws {
        self.story.url.wrappedValue = url
        guard await isAuthorized() else {
            print("user denied mic permission")
            return
        }
#if os(iOS)
        try setUpAudioSession()
#endif
        try await transcriber.setUpTranscriber()
                
        for await input in try await audioStream() {
            try await self.transcriber.streamAudioToTranscriber(input)
        }
    }

15:37 - Set up audio recording via AVAudioEngine

#if os(iOS)
    func setUpAudioSession() throws {
        let audioSession = AVAudioSession.sharedInstance()
        try audioSession.setCategory(.playAndRecord, mode: .spokenAudio)
        try audioSession.setActive(true, options: .notifyOthersOnDeactivation)
    }
#endif
    
    private func audioStream() async throws -> AsyncStream<AVAudioPCMBuffer> {
        try setupAudioEngine()
        audioEngine.inputNode.installTap(onBus: 0,
                                         bufferSize: 4096,
                                         format: audioEngine.inputNode.outputFormat(forBus: 0)) { [weak self] (buffer, time) in
            guard let self else { return }
            writeBufferToDisk(buffer: buffer)
            self.outputContinuation?.yield(buffer)
        }
        
        audioEngine.prepare()
        try audioEngine.start()
        
        return AsyncStream(AVAudioPCMBuffer.self, bufferingPolicy: .unbounded) {
            continuation in
            outputContinuation = continuation
        }
    }

16:01 - Stream audio to SpeechAnalyzer and SpeechTranscriber

func streamAudioToTranscriber(_ buffer: AVAudioPCMBuffer) async throws {
        guard let inputBuilder, let analyzerFormat else {
            throw TranscriptionError.invalidAudioDataType
        }
        
        let converted = try self.converter.convertBuffer(buffer, to: analyzerFormat)
        let input = AnalyzerInput(buffer: converted)
        
        inputBuilder.yield(input)
    }

16:29 - Finalize the transcript stream

try await analyzer?.finalizeAndFinishThroughEndOfInput()

- 0:00 - 简介
- Apple 在 iOS 26 中推出了全新的语音转文本 API —— SpeechAnalyzer，作为 iOS 10 中推出的 SFSpeechRecognizer 的替代方案。SpeechAnalyzer 采用 Swift 构建，具备更快的处理速度与更高的灵活性，支持长音频与远距离录音，适用于讲座、会议、对话等多种场景。这一全新 API 支持实时转录功能，现已应用于系统级 App，如“备忘录”、“语音备忘录”和“手记”等。结合 Apple 智能使用时，这个 API 可实现强大的功能，例如 Call Summarization。
- 2:41 - SpeechAnalyzer API
- 这个 API 的设计以 SpeechAnalyzer 类为核心，用于管理语音分析会话。通过添加转录器模块，分析会话将会变为转录会话，能够执行语音转文本处理操作。音频缓冲区会传递给分析器实例，并通过转录器的语音转文本模型进行处理。模型会预测文本及元数据，并通过 Swift 的异步序列以异步方式返回给应用程序。所有 API 操作都会基于音频时间轴上的时间码来排定时间，从而确保执行顺序可预测且彼此独立。转录器会按顺序返回结果，其中涵盖特定的音频区段。可选功能支持对指定音频区段进行迭代转录，先返回快速但精确度较低的“临时结果”，用于提升界面响应速度，随后再替换为更准确的最终结果。在这个讲座的后续部分，将会介绍一个实际用例，演示如何创建转录模块、设置语言区域、从音频文件中读取数据、通过异步序列拼接转录结果，并以富文本字符串的形式返回最终转录内容。这个 API 支持并发和异步处理，将音频输入与结果解耦，并可以进行扩展以满足在不同视图、模型和视图模型中的复杂使用需求，这一点将在后续示例中进行演示。
- 7:03 - SpeechTranscriber 模型
- Apple 为 SpeechTranscriber 类开发了全新的语音转文本模型，专为应对多种场景而设计，包括长音频录音、会议以及低延迟、高准确度的实时转录。这个模型完全在设备端运行，兼顾隐私保护与处理效率。它不会增加 App 的体积或内存占用，并可自动完成更新。你可以通过 AssetInventory API 轻松将这个模型集成到你的应用程序中。SpeechTranscriber 类目前支持多种语言，并适用于大多数 Apple 平台；对于暂不支持的语言或设备，系统会提供后备选项 DictationTranscriber。
- 9:06 - 构建语音转文本功能
- 在 iOS 18 中，“备忘录”App 现已支持全新功能，用户可录制并转录电话通话、实时音频及录音内容。这些功能与 Apple 智能集成，可用于生成摘要内容。Apple 的 Speech 团队开发了 SpeechAnalyzer 和 SpeechTranscriber，实现了高质量的设备端转录，即使在远距离情况下也能快速且准确地完成语音转文本处理。你现在可以使用这些工具构建自定的转录功能。示例 App 专为儿童设计，用于录制并转录睡前故事内容。这个 App 会实时显示转录结果，并在音频播放过程中高亮显示对应的文本片段。要在 App 中实现实时转录功能，可按照以下三个主要步骤进行操作：配置 SpeechTranscriber 时，指定相应的语言区域和选项，并确保设备上已下载并安装所需的语音转文本模型。接着，通过 AsyncStream 接收并处理转录结果。转录结果包含临时文本 (实时预测) 和最终文本，可实现音频播放与文本内容的平滑同步。当获得最终转录结果时，volatileTranscript 会被清除，结果会添加到 finalizedTranscript 中，以避免重复显示。最终转录结果也会写入到 Story 模型中，以供后续使用，并通过 SwiftUI 的 AttributedString API 实现条件格式化呈现。设置音频输入时，需先请求录音权限，启动 AVAudioSession，并配置 AVAudioEngine，使它返回一个 AsyncStream 以传递音频数据。音频会在转换为最佳可用格式后写入磁盘，并传递给转录器进行处理。当录音停止时，音频引擎与转录器会一并停止运行，所有尚未完成的临时转录结果也会最终确认。TranscriptView 在录音过程中会同时显示最终与临时转录内容的拼接结果，在播放过程中则从数据模型中加载最终转录内容，并根据音频播放进度高亮显示对应词句。在这个示例 App 中，借助 Apple 智能和 FoundationModels API，为故事内容生成标题，展示了如何将 Apple 智能应用于语音转文本结果，实现实用的信息处理与转换。 Speech 框架支持以最短的启动时间开发这类 App，更多技术细节可参考它的文档。

章节

资源

相关视频

WWDC23