语音识别 API

返回 WWDC16

语音识别 API

iOS 10 推出了全新的语音识别 API，让您可以在基于文件和实时的场景中进行快速的上下文感知语音识别。在这段视频中，您将全面了解这个新 API，以及如何将先进的语音识别服务整合到您的 app 中。

资源
- - 高清视频
  - 标清视频
- 演示幻灯片 (PDF)
相关视频

WWDC19
- 语音识别改进
大家好我是Henry Mason 是Siri语音识别工程师
今天我们非常激动地发布一项全新的API 它将让语音识别也能为你的app解决问题
先快速回顾一下什么是语音识别语音识别是自动的过程将人类语音的音频转换成文本它取决于语音的语言比如英语会和汉语的识别不同在iOS 大多数人会想到Siri 但语音识别对许多其他任务也有用
由于Siri与iPhone 4S 一起发布 iOS也带有keyboard听写
在iOS keyboard空格键旁那个小小的麦克风按键触发对任何UI kit 文本输入的语音识别每天有成千上万个应用使用这个功能事实上大约三分之一的请求来自第三方应用它使用起来极其方便它处理录音和录音中断它显示用户界面它不需要你再写任何代码就能支持任何文本输入而且它从iOS 5开始就可供使用 iOS keyboard听写从2011年起便可供使用但它的简化带来很多限制
你的用户界面通常并不需要keyboard 当录音开始时你不能控制不能控制使用哪一种语言只是刚好使用系统的 keyboard语言甚至没有办法知道听写键是否可用
默认录音可能对你的使用案例不合理你可能想要更多信息而不只是文本
那么现在在iOS 10 我们引入一种新的语音框架语音识别API更加强大它使用相同基本技术和Siri及 Dictation中所使用的一样它提供快速而准确的结果显而易见地定制给用户而无需你收集任何用户数据
该框架也提供了识别的更多信息
而不只是文本
例如我们也提供另外的解读关于你的用户可能说了什么置信水平以及定时信息
用于API的音频可来自预录文件或现场来源比如麦克风语音识别API的可用性深远而广泛经过许可 iOS 10支持超过50种语言和方言从阿拉伯语到越南语
任何运行iOS 10的设备都支持
语音识别API 通常能胜任在需要互联网连接的大型服务器上
不过某些新的设备确实时刻都支持语音识别我们提供可用性API以确定某个既定语言当前是否可用使用这个而不是去寻找互联网连接
由于语音识别需要传送用户的音频经过互联网用户必须明确提供许可给你的应用在可以使用语音识别之前
语音识别解释、授权、请求有四个主要步骤在你的应用中采用语音识别
首先在应用的Info.plist中提供使用描述
例如你的相机应用Phromage 可能用了语音识别的使用描述... 这能让你只说cheese就能拍照
其次请求授权利用请求授权级别方法
你先前提供的解释会被呈现给用户在一个熟悉的对话中然后用户将能够决定他们是否想要让你的应用语音识别
接下来创建语音识别请求
如果你已经有录好的音频文件使用SFSpeechURL RecognitionRequest级别否则你要使用 SFSpeechAudioBuffer RecognitionRequest
最后提交识别请求给SFSpeech Recognizer 开始识别你可以选择保留返回的识别任务这有助于监控识别过程
我们来看看这个在代码中长什么样假定我们已更新info.plist 通过准确的描述关于如何使用它下一步是请求授权
也许最好等到用户调用你的应用的功能后再这样做这个功能要依靠语音识别
请求授权级别方法借助完成处理程序它不保证某个执行语境
应用通常要发送到主队列如果它们要做点什么比如开启或关闭用户界面按钮
如果你的授权处理程序已给出authorized状态你应该准备开始识别
否则识别就无法对你的应用可用
重要的是采用合适的方法禁用必要的功能当用户作出这个决定时或当设备受限无法使用语音识别时授权可稍后修改在设备的隐私设置里
我们来看看如何识别一个预录的音频文件假设我们已有一个文件url
识别需要语音识别程序它只识别一种语言默认的SFSpeechRecognizer 启动程序可能会失败于是我返回0 如果区域不支持的话默认的启动程序使用设备的当前区域
在这个功能中我们只要返回1 在这个情况下
虽然这个语音识别可能受支持但它也许不可用可能由于没有互联网连接使用isAvailable属性在你的识别程序中以便监控它
现在我们创建一个识别请求用录好的文件的url 然后将它给予识别程序的识别任务方法
这个方法完成处理程序借助两种可选的参数 result和error
如果result是0 那意味着出于某种原因识别失败检查error的参数寻求解释
否则我们可以读出我们已经识别的语音通过查看结果
注意完成处理程序可能会被唤起不止一次当语音被逐步识别你可以确定识别已完成通过检查结果的isFinal属性这里我们只打印出最终识别的文本
识别来自设备麦克风的现场音频也很相似但需要一些改动
我们要做出音频缓冲识别请求这能让我们提供内存音频缓冲的序列而不是硬盘上的文件
我们使用AVAudioEngine 来获取音频缓冲流
然后将其附加到请求注意完全可以附加音频缓冲到识别请求在开始识别之前和之后
一个不同之处在于我们不再忽略识别任务方法的返回值反而我们要将它保存在一个变量的属性中等会儿我们就知道为什么
当我们完成录音后
我们需要通知请求没有更多音频了以便它能完成识别使用endAudio方法来实现
但要是用户取消录音或者录音被中断呢？在这种情况下我们真的不关心结果而且我们应该释放仍在被语音识别使用的任何资源
只要取消我们开始的识别任务... 我们开始识别时保存的这对于预录音频的识别也能做到最佳做法简单说说一些最佳做法
资源负责任我们开放语音识别给所有应用免费使用但我们的确有设置一些合理的限制以便这项服务一直对每个人可用
不同的设备可能受限于每天可以识别的量
应用也会在全球范围内被节流根据每天的请求
正如API支持的其他服务例如CLGO Coder 要有所准备以处理网络和速率受限的故障
如果你发现你经常达到节流的限制请告诉我们
同样重要的是要注意语音识别会极大地耗费电池和网络流量
对于iOS 10我们开始限制音频长度为大约一分钟类似于keyboard听写的时长
隐私和可用性透明度简单说说关于透明度以及尊重用户的隐私
如果你在录用户的语音最好在你的用户界面中说得非常明确播放录制的声音和/或显示可见的录制指示可让用户清楚知道他们正在被录音
有些语音不适合识别密码、健康数据、财务信息以及其他敏感语音不应给予语音识别
显示识别的语音像Siri和Dictation做的也能帮助用户理解你的应用在做什么它对用户很有帮助以便他们可以在识别出错时及时看到
总结那么开发者们你们的应用现在可以免费获得高性能的语音识别可识别几十种语言但重要的是要得体地处理当它不可用时的情况或者用户不想让你的应用使用它
透明度是最好的政策让用户清楚知道什么时候语音识别正在被使用
我们很兴奋地期待你们会为语音识别带来什么新用途更多信息欲了解更多信息及一些样本代码请查看本讲的网页你可能会对部分关于 SiriKit的会话感兴趣周三有一场周四有一场更高级别的
谢谢参与祝你们在 WWDC 大有收获

资源

相关视频

WWDC19