探索设备端基础模型的提示设计和安全

更多视频

探索设备端基础模型的提示设计和安全

设计充分发挥 Foundation Models 框架优势的生成式 AI 体验。首先我们将展示如何为 Apple 智能核心的设备端大语言模型设计提示。然后，我们将介绍 AI 安全方面的关键理念，并提供切实可行的具体策略来助你打造安全、可靠且令人愉悦的生成式 AI 功能。

章节
- 0:00 - 简介
- 2:30 - 针对设备端 LLM 进行设计
- 6:14 - 提示方面的最佳实践
- 11:03 - AI 安全性
- 18:37 - 评估与测试
资源
大家好我是 Mary Beth 一名以人为本的 AI 研究员我叫 Sprite 是一名 AI 安全工程师我们推出的全新 Foundation Models 框架让你在为 App 设计生成式 AI 体验时变得前所未有的简单生成式 AI 是一项令人振奋的技术其中的核心挑战在于打造稳定可靠的体验确保用户在各种现实场景中都能顺畅无阻地使用你的 App 幸运的是我和 Mary Beth 已经准备好为大家提供全面指导没错无论你是设计师还是工程师本次讲座都适合你在正式开始之前让我们快速了解一下提示词和大语言模型你可能知道提示词是向生成式 AI 模型输入的文本用于引导模型生成响应就像你平时给同事发消息一样使用自然的人类语言书写
这里我编写了一个字符串变量形式的提示词： “生成一个关于狐狸的睡前故事” 请注意虽然这个提示词是用英文写的但你可以使用“Apple 智能” 支持的任何语言来编写提示词接下来我们来看看通过语言模型会话运行这个提示词的相关代码运行后模型会生成一个细节丰富、富有想象力的睡前故事太不可思议了！我们来详细了解一下其中的运作原理借助新的 Foundation Models 框架你的提示词会被发送到设备端的大语言模型 (LLM) 上运行 LLM 能够进行推理并生成文本这个模型是一种通用模型内置于 iOS、 iPadOS、macOS 和 visionOS 操作系统中事实上 “Apple 智能”的功能如写作工具使用的正是这个语言模型在底层 “Apple 智能” 同样使用提示词来指导模型现在我们对提示词和 LLM 有了基本认识接下来介绍本次讲座的主要内容首先我将针对你将使用的设备端语言模型介绍一些设计策略然后分享有关提示工程的最佳实践之后 Sprite 将为我们讲解 AI 安全问题最后介绍对提示词进行评估和测试以确保质量与安全性让我们开始吧首先我们来深入了解一下设备端 LLM 的设计这个模型驻留在用户的设备上可用于许多常见的语言任务如摘要、分类、多轮对话文本创作、文本修订以及从文本生成标签等但请注意这个大语言模型是经过专门优化和压缩的这样才能装入设备设备端模型大约有 30 亿个参数要知道 30 亿参数放在任何标准下都算得上是一个庞大的机器学习模型但为了更直观地理解假设这个圆圈代表你熟知的某个主流大语言模型如 ChatGPT 目前这类 LLM 的参数规模高达数千亿需要依托大型服务器集群运行如今设备端 LLM 在参数量级上的差异决定了它的功能范围无法与基于服务器的大型 LLM 完全比肩首先适用于大型 LLM 的任务可能无法直接在小型模型上运行如果遇到复杂推理任务时系统模型表现欠佳建议将任务提示拆解为多个简单步骤对于数学相关任务请避免让小型模型执行计算器功能用非 AI 代码处理数学问题要可靠得多系统模型并未针对代码进行优化因此也应避免代码生成类任务
其次由于规模较小系统模型的通用知识有限例如模型无法获知训练截止日期之后发生的近期事件除非你已彻底验证模型了解某个特定主题比如百吉饼否则不要采信系统模型提供的事实我会要求模型列出 10 种流行的百吉饼口味
这是模型根据我的提示词生成的结果很明显模型知道百吉饼但它将一个原味百吉饼描述为带有大量配料这显然是错误的这个模型不应被用作百吉饼百科全书因为它并不太准确但这种知识水平可能适用于某些场景比如烘焙店游戏例如你可以用模型生成顾客点购百吉饼的对话内容如果模型出错比如生成奇怪的口味这在游戏里反而更有趣而不会造成误导第三务必充分理解幻觉的影响当涉及模型未知的知识领域时它可能会产生幻觉这个技术术语特指模型完全虚构答案的现象在操作指南等对事实准确性要求严格的场景中绝不能冒险让幻觉误导用户避免依赖系统语言模型来获取事实若确实需要生成事实性内容建议在提示词中直接写入经过验证的信息并对模型根据你编写的任何新提示词输出的内容进行彻底的事实核查目前你可以通过模型的一项特殊功能来提升多种场景下的可靠性那就是引导式生成借助 Foundation Models 框架引导式生成让你可以精准控制模型输出内容无论是字符串、数字、数组还是你自定义的数据结构如需深入了解引导式生成的工作原理请观看讲座 “了解 Foundation Models 框架” 接下来我们聊聊提示工程的最佳实践提示工程是个很重要的话题建议大家后续可以深入学习不过这里有一些最佳实践可以帮助你快速入门首先你可以直接告诉模型来控制系统模型生成的内容量我的提示词是： “生成一个关于狐狸的睡前故事”
我将修改提示词要求只生成一段内容
成功了！一个更简短的睡前故事使用诸如“用三句话”或 “用几个词”之类的措辞来缩短输出使用“详细描述”之类的措辞来生成更长的输出内容其次你可以通过指定角色来控制模型生成文本的风格与口吻我会告诉模型这是一只说莎士比亚式英语的狐狸
看同样奏效模型成功代入角色用莎士比亚戏剧风格的文笔写下了这只小狐狸可爱的日记片段模型可以根据你的提示灵活扮演多种不同角色根据这个模型的训练方式我再分享几个实用技巧首先请将提示词表述为清晰的指令总体而言当任务指令单一、具体且详细时模型表现最佳你可以在提示词中直接加入不超过五个你期望的输出类型的示例从而提升任务执行效果最后如果发现模型输出偏离预期而想要停止使用全大写指令：“DO NOT” 会非常有效这就像用严厉的语气对它说话一样
如果准备开始试验 Xcode 的全新 Playground 功能是试验提示词的绝佳平台只需在项目任意代码文件中添加 #Playground 并编写语言模型会话格式的提示词模型的响应就会立即显示在右侧画布上就像 SwiftUI 预览一样这是进行试验找出最适合你 App 的提示词的好方法现在我们的提示工程最佳实践可以应用于提示和指令指令是 Foundation Model 框架提供的第二种提示它的功能定位略有不同当创建语言模型会话时你可以将指令作为参数传入这种特殊提示词会告诉模型应如何行为以及如何响应所有后续的提示词这里我写了指令： “你是一个乐于助人的助手专门生成适合青少年的恐怖故事” 让我们看看效果
我们最初使用简单提示词生成的睡前故事是这样的而当我们添加指令后模型会优先处理这个指令再响应其他提示现在当我们发送生成睡前故事的提示时故事风格会彻底改变以符合“恐怖故事”的指令要求
请注意即便持续发送新提示初始指令依然生效现在当我发送 “写一首百吉饼的诗”这个提示时不出所料模型生成了一首令人毛骨悚然的百吉饼恐怖诗在结束关于提示词的讨论前需要特别强调一下交互性提示词不仅可以由 App 设计师提供通过指令与提示词的配合使用你可以创建交互式模型会话让 App 用户也能输入提示词让我们来看看假设我正在开发一款日记 App 首先我会给语言模型设定这样的指令 “你是一个乐于助人的助手可以通过询问用户当天的情况来帮他们写日记” 现在我希望我的 App 用户能够直接将他们的日记开头作为提示词发送给我的模型比如抱怨道：“唉今天太糟心了” 此时模型会用一个日记提示词回应 “今天发生了什么糟糕的事情？” 在这个场景中如果你将用户的输入作为提示词发送给模型你无法预知用户会输入什么提示词会影响安全性无论是无意还是有意用户都可能提供导致模型以无益甚至有害的方式回应的输入关于 AI 安全的更多内容有请 Sprite 她可以分享更多谢谢 Mary Beth 她向你演示了如何编写出色的提示词以充分利用我们的设备端模型提示设计是你安全工具箱中的第一个工具让我们进一步了解如何设计注重安全的 App 我们为“Apple 智能”功能制定了一套原则以体现我们的核心价值观我们在设计 Foundation Models 框架时遵循同样的原则帮助你为 App 打造安全而奇妙的体验我们希望你能够创造出真正为用户赋能的 App 无论是为孩子生成睡前故事还是规划梦想假期生成式 AI 可能被滥用或带来潜在风险虽然 Foundation Models 框架已内置防护机制帮你打造安全的 App 体验但仍然建议你考虑一下具体使用场景中可能出现的问题我们在设计模型与框架时就考虑了隐私问题并持续优化模型以避免固化刻板印象和系统性偏见现在我们来重点探讨防护机制 Foundation Models 框架内置了由 Apple 训练的防护机制因此你无需担心最坏情况的发生防护机制同时作用于模型的输入与输出两端你的指令、提示词和工具调用都被视为模型的输入我们设计的防护机制会主动拦截包含有害内容的输入请求同时对模型输出也设置有保护层即使遇到刻意绕过输入防护的恶意提示词也能确保有害输出被拦截
这就是在 Swift 中处理安全错误的方式当发生错误时你需要考虑如何将这个信息传达给你的 App 用户针对主动型功能即非用户触发的操作可直接静默处理错误避免用意外信息干扰用户界面
而对于用户发起型功能尤其是需要等待响应的请求则务必通过适当的 UI 反馈说明 App 无法处理请求可以是一个简单的警告你还可借这个机会提供备选操作方案供用户选择例如图乐园提供了一种便捷的方式让用户可以撤销导致安全错误的提示词虽然 Foundation Models 框架为你提供了强大的安全基础但 App 内的最终体验仍由你负责把控只有这样才能确保用户始终获得符合预期的可靠的内容生成体验
以下是构建 App 用户信任的三大核心要素确保你的 App 不会生成不当内容 Foundation Models 框架中的防护机制将自动拦截这类内容你还需谨慎处理用户输入这可以通过精心编写指令和提示语来实现
同时要考虑到用户根据 App 反馈采取行动时会发生什么以及这可能对他们产生什么影响稍后我会举几个例子帮助你思考可以采取的措施让我们回到 Mary Beth 之前展示的日记示例我们的模型经过训练会优先遵循指令而非提示词因此优化指令是提升回答安全性的有效途径
在这里我添加了一句话告诉模型要以同理心和健康的方式回应负面的提示词这样你就可以看到新指令是如何引导模型输出的尽管这种方法并非万无一失但精心编写的安全指令能显著提升 App 响应的质量关键是要确保指令完全来自你本人绝不包含不受信任的内容或用户输入用户输入的内容可以放在提示词中而非指令部分让我们来看看一种非常常见的模式是将用户输入直接作为提示词想象一个聊天机器人它可以接收 App 用户的任意输入这种模式虽然灵活性很高但也存在安全隐患当采用这种模式时请确保已通过指令要求模型谨慎处理各类用户输入要在保持灵活性的同时降低风险一个好方法是将你设计的提示词与用户输入相结合更好的做法是 App 可以提供内置提示词列表供用户选择这样你就能完全掌控所有提示内容虽然这不如其他模式灵活但能让你精心设计一套最适合自身 App 的提示词从而让模型输出更优质的回答即便配备了完善的指令机制并谨慎处理用户输入你的 App 仍可能存在安全隐患你必须提前预判用户根据生成内容采取行动后可能造成的影响和后果我们来看一些例子
这是 Mary Beth 之前展示的生成百吉饼口味的提示词
用户使用你的 App 时有一个潜在风险是模型生成的一些百吉饼口味可能含有坚果或大蒜等过敏原你可以采取的降低风险的方式是在用户界面显示过敏警告或者添加设置选项让用户输入饮食限制条件由 App 自动过滤模型生成的食谱
再举一个例子假设你正在开发一个冷知识生成 App 可能需要避免生成有争议或不适合目标受众的外来话题可以考虑添加额外指令或制定一个关键词黑名单如果你是一名机器学习从业者还可以训练分类器以获得更稳健的解决方案需要强调的是你需要根据具体用例采取相应的风险管控措施与多数安全系统一样我们讨论的是一种分层防御机制只有当所有防护层都失效时安全问题才会发生可以把这种分层防御形象地理解为“瑞士奶酪模型” 虽然每片奶酪都有孔洞但只有当所有奶酪片的孔洞恰好对齐时风险才会“漏网而过” 现在来看看我们的安全工具箱我们技术栈的基础层是 Foundation Models 框架内置的防护机制你需要在给模型发出的指令中添加安全约束这些指令将优先于提示词执行你还需设计你的 App 来控制如何将用户输入内容整合到模型提示中最后在顶层你需要针对具体用例实施相应的风险缓解方案构建基于生成式 AI 的 App 时评估与测试是另一个关键环节
你可以先为模型质量和安全性精心准备测试数据集记得要收集涵盖 App 所有关键用例的提示词还需要收集可能触发安全问题的提示词
获得数据集后应设计一个自动化流程对功能模块进行端到端测试为此建议开发一个专用的命令行工具或 UI 测试 App
对于小规模数据集你可以逐条执行人工检查以查看模型响应是否存在问题若需要扩展到更大数据集可以考虑使用另一个大语言模型来自动评估响应质量此外务必对 App 进行异常路径测试确保当出现安全错误时 App 的实际表现完全符合你的预期
无论是你优化提示词还是我们升级底层模型进行充分的评估与测试都能帮助你持续追踪效果提升或衰退情况这有助于你对 App 中智能功能的质量和安全性始终保持信心我们将持续更新模型与安全系统遵循行业最新最佳实践并及时修复安全隐患若你在开发 App 时遇到安全问题可以使用“反馈助理”进行报告此外建议你创建自己的 UI 来收集用户对 App 功能的反馈具体实施时请确保用户清晰知晓 App 收集的数据类型及使用方式你可以通过我们的开发者网站进一步了解 App 数据收集与隐私保护的相关规范我们在本视频中介绍了很多内容最后我们通过一份检查清单来总结安全议题供你参考当向模型发送提示时你的 App 应妥善处理防护机制触发的错误安全约束应作为指令的一部分明确设定在将用户输入整合到提示时需权衡灵活性与安全性预判用户使用智能功能时的潜在影响并实施针对具体用例的应对方案进行充分的评估和测试以便对 App 智能功能的质量和安全性充满信心最后使用“反馈助理” 报告安全问题这些就是关于 AI 安全性的内容我们万分期待看到你在 App 中运用生成式 AI 创造出精彩内容最后为你提供一些额外的资源和工具作为参考别忘了尝试使用 Xcode 的全新内联 Playground 功能来优化你的提示工程虽然我们分享了许多关于 App 安全的建议但关于 Apple 负责任 AI 实践的完整说明包括 Foundation Model 的内置安全机制请查看 machinelearning.apple.com 上的专题文章最后请参阅我们新发布的生成式 AI 设计指南和《人机界面指南》提示工程与安全专题到此结束开始创作吧！但请牢记安全第一！
- 0:00 - 简介
- 借助全新的 Foundation Models 框架，开发者能够跨 Apple 设备，高效便捷地设计生成式 AI 体验。生成式 AI 由大语言模型 (LLM) 提供支持，具备逻辑推理能力，并能生成自然语言文本。通过该框架，你可以利用通用型设备端 LLM，这些 LLM 已集成到 iOS、iPadOS、macOS 和 visionOS 中。
- 2:30 - 针对设备端 LLM 进行设计
- 这种设备端语言模型针对摘要、分类、对话、文本创作和修订等各种通用语言任务进行了优化。请注意，由于该模型规模较小，因此存在一些局限性。它在处理复杂的推理任务、数学计算或代码生成方面可能表现不够理想，而且它的知识范围仅限于训练数据截止日期之前发生的事件。不过，在不需要高度准确性的场景下，例如生成对话内容或创意灵感等创造性任务中，它仍然具有一定的实用价值。
- 6:14 - 提示方面的最佳实践
- 你可以通过指定输出长度来控制系统模型的响应，例如使用“用三句话说明”或“详细描述”等。你还可以为模型分配角色，或提供所需输出的示例，以提高模型的表现。最后，你也可以通过添加指令来影响模型在多个提示中的行为，比如指定响应的语气或目的。
- 11:03 - AI 安全性
- Foundation Models 框架为使用生成式 AI 的 App 开发者提供一个安全的起点，内置由 Apple 训练的防护措施，可阻止有害的输入和输出。然而，你仍需对 App 内容的安全性和适当性负责。建议采用一种分层安全防御机制，以框架的防护措施为基础，配合模型中的安全指令，并谨慎处理用户输入和实施针对具体场景的应对方案。这种分层机制意味着只有当多个层级同时失效时，才会出现安全问题。
- 18:37 - 评估与测试
- 要对基于生成式 AI 的 App 进行有效评估和测试，需要构建多样化的数据集，涵盖主要用例和潜在的安全触发因素。你可以借助自动化方法，通过 AI 功能端到端运行数据集。对于小规模数据集，适合通过人工来审核结果；而对于大规模数据集，则可以借助另一个大语言模型来自动评估响应质量。在将用户输入整合到提示中时，要确保妥善处理防护机制触发的错误、将安全因素纳入指令，并权衡灵活性与安全性。

章节

资源