了解 Evaluations 框架

了解 Evaluations 框架

了解如何使用 Evaluations 框架来评估模型驱动的体验。在概率世界中，仅靠单元测试是不够的。探索如何定义指标、自动评估输出质量并汇总统计数据，以便确保由 AI 支持的功能在各个 Apple 平台上都能稳定可靠地运行。

章节
- 0:00 - 简介
- 3:10 - 示例 App“Book Tracker”：人工评估
- 4:31 - 构建首个评估
- 8:06 - 运行评估并阅读报告
- 10:57 - 构建稳健的数据集
- 14:20 - 优化指标和评估器
- 15:41 - 评估驱动的开发和爬山法
- 16:12 - 评审模型：定性指标
- 18:42 - 构建评审模型
- 21:19 - 通过评分维度进行优化
- 23:45 - 审查维度结果
- 24:20 - 最佳做法
- 25:38 - 后续步骤
资源
你好我是Yada 我是Rob 很高兴向大家介绍 Evaluations框架这是一个全新框架用于衡量智能功能的质量让你能够自信地发布App 去年我们推出了 Foundation Models框架帮助你利用我们的端侧模型为App添加智能功能这些模型正是 Apple Intelligence的动力来源使用生成式AI构建App功能带来了新的测试挑战因为相同的输入可能产生不同的输出这些模型打破了软件测试的基本契约
以传统软件为例特定输入始终产生特定输出你可以轻松用单元测试来验证这种行为
可以保证相同输入在任何设备上产生相同输出包括你用户的设备
而对于智能软件你无法依赖功能一致性来验证行为这意味着单元测试是不够的未经验证的行为会削弱用户的信任你的用户期望 App中的智能功能像任何功能一样安全可信可靠
发布一个行为不可预测的功能可能对App的声誉造成不良影响
我们需要衡量智能功能了解它们如何响应不同输入既然功能测试无法验证概率性行为我们就需要一种更健壮的新型测试
我们需要知道：我的App 产生意外结果的频率是多少智能体走向意外路径来生成答案的频率是多少在什么情况下该功能会产生不安全的结果测试由生成式AI驱动的智能功能所面临的挑战正是我们构建 Evaluations框架的根本原因
Evaluations框架是一个灵活的系统提供多种类型和协议本视频将重点介绍如何评估语言模型驱动的智能功能但你也可以评估任何随机系统例如分类器和线性回归模型
Yada和我将带你了解框架中的几种类型
我们将介绍数据加载以及如何构建多样化数据集
用Evaluator和Metric 构建量化指标并通过模型评判器和评分维度精细化你的测量以创建定性指标
在本视频中你将开始使用Evaluations 构建好你的第一个Evaluation后我们会向你展示如何扩展该Evaluation 加入更多数据和测量指标然后我们将教你如何用简单的API构建强大的模型评判器开始使用Evaluations吧
Yada和我正在开发一款名为Book Tracker的App 我们都热爱读书想要一款管理藏书的App Yada刚添加了一个新功能叫做BookTaggingService 它根据我们在Book Tracker中写的书评自动为书籍打标签
我迫不及待想打开 Xcode试用一下
在BookTaggingService.swift中添加一个#Playground宏
这是Yada在Book Tracker中为"傲慢与偏见"添加的书评说实话我自己也是书迷来看看我们得到哪些标签
这是个不错的开始但当我读到一些标签时可以看到我们的服务还需要做一些改进
9个标签比我预期的要多
我也不想把书名作为标签
多词标签在UI中会造成问题所以也应该避免
来试试另一本书的书评看看《德古拉》的效果
7个标签在我们预期范围内仔细看一下
有些行为是我希望看到更多的
它识别出了文学流派
以及一些能帮我浏览更大书库的分类
好了我们刚刚完成了对该服务的第一次评估我们创建了一份期望列表并用人工判断衡量服务的表现每次评估都在衡量智能功能的表现与我们的期望相比如何
遗憾的是人工判断无法规模化
但我们已经创建了一种自动化和扩展评估的方式你只需添加 import Evaluations 并实现Evaluation协议即可
来用代码构建一个Evaluation吧
我们从第一个期望开始衡量服务是否生成了正确数量的标签
构建和运行Evaluation 有五个步骤定义你要测量的代码
然后定义你要发送给代码的数据接下来定义你要进行的测量及方式
然后汇总你的测量结果最后创建一个测试来运行你的Evaluation
首先我们添加对 BookTaggingService的调用并在subject(from:)方法内部返回其输出
这些生成的标签就是我们评估的主体
接下来定义我们将输入给代码的样本数据
然后用ModelSample 包装相同的书评就是我们之前在 #Playground中测试的那些《傲慢与偏见》和《德古拉》注意我们也定义了预期标签这些是我们希望服务返回的理想标签
现在是时候用Metric类型来定义我们的测量了我们添加一个名为"TagCount"的Metric 用于跟踪服务返回的生成标签数量
我们需要一些东西来测量生成的标签 Evaluator接收一个闭包该闭包会传入服务针对特定样本的输出我们可以通过tags属性的count来检查生成标签的数量
如果tags数组的长度在3到8之间我们从Evaluator返回一个通过的Metric
否则返回失败的Metric
Evaluator每次处理一个样本但我们可以测量趋势并寻找规律在aggregateMetrics(using:)方法中对所有样本进行汇总测量
我们来计算服务生成正确数量标签的平均次数这样我们就能得出服务行为正确的频率比例
好了我们写完了第一个Evaluation 接下来编写代码来运行它
Evaluations与Swift Testing集成你可以在App的测试目标中运行Evaluation 这里我们在Test Suite内部实例化BookTaggingEvaluation 在测试套件内部
我们为Evaluation运行添加一些备注以便追踪我们正在评估的配置这在以后会很有用当我们比较不同 Evaluation运行结果时
接下来用@Test宏添加一个测试函数以及一个新的@Test特性.evaluates 这个特性接收我们的Evaluation 和一个备注字典就像我们之前在@Suite中创建的那个
在我们的@Test内部可以访问Evaluation结果包其中包含所有Metric 以及来自此次 Evaluation运行的汇总指标从结果中获取所有tagCount指标并对其平均值进行断言我们将使用结果包上的 aggregateValue方法然后在#expect宏中对平均值进行断言这里我期望服务在80% 的情况下生成正确数量的标签为什么是80%？如果服务性能跌破80% 我想知道而失败的测试是很好的信号但如果我想更深入了解 Evaluation期间发生了什么呢
我们为Evaluation 提供了一份新的测试报告这是深入了解 Evaluation详情并进一步分析的好方法
运行我们的测试我来带你浏览报告根据服务之前在#Playground 中返回的结果特别是它为 "傲慢与偏见"生成的标签数量我预计测试不会通过
好测试没有通过来查看报告了解发生了什么点击报告导航器然后在测试报告中选择Evaluations 这是测试套件的 Evaluation报告双击该行了解更多详情我看到TagCount指标仅通过了50%的情况快速查看完整结果表可以看到 "傲慢与偏见"样本产生了失败结果而"德古拉"样本生成了正确数量的标签
可以在表格中选择每一行查看更多详情使用Xcode中的辅助编辑器详情面板显示了提示词以及ModelSample的每项测量结果底部显示了来自模型的完整响应
稍作总结我们为BookTaggingService 构建了一个Evaluation 运行后发现未能达到我们的优化目标
还记得我们的测试定义吗这正是我们定义优化目标的地方我们表示功能表现符合预期当且仅当80%的情况下生成了正确数量的标签
除了自动检查优化目标之外我们需要深入分析结果并收集洞察具体来说思考可以做哪些改动来提升功能的表现
我有个直觉于是我回头查看 @Generable类型BookTags 也就是服务正在生成的类型我们已经有一个@Guide宏为模型提供额外指令用于tags属性
我可以在那个@Guide中指定一个count属性它可以接受一个范围这应该能指示模型只生成3到8个标签
这是个有趣的理论来进行这个修改吧
然后重新运行Evaluation 看看我是否正确我们把这个过程叫做爬坡
好了我做了修改并重新运行了Evaluation 测试通过了 TagCount 在100%的情况下都通过了但我注意到一个可能奇怪的行为修改之后服务始终生成八个标签嗯
现在我们已经设置好了Evaluations 来收集更多样本上的更多测量结果看看这个奇怪的行为是否还会持续我们的Evaluation 只从两个数据样本开始如我们所见这只给了我们两条测量数据来提取趋势好的Evaluation需要数千个样本来提取趋势同时也要以多种不同方式测试你的功能我们应该考虑数据集的多样性例如…… 我们希望服务能够识别不同的流派我们不能假设每个用户都会写很详细的书评所以书评应该有不同的长度你用不同的分类浏览小说和非小说样本应该代表这种多样性最后还应该考虑不同的形式长篇小说短篇故事和散文
也让模型难一点加入一些个人观点这样我们就能衡量服务在书评中忽略这些内容的能力
如果你想教功能像你一样写标签可以从在样本的预期值中加入更多你的个人风格开始
来看几个代码示例这篇对"秘密花园"的书评读起来与我们最初的书评很不一样因为我们写它时像是一个热爱园艺的人这里我们挑战模型包含一位母亲读给儿子听"金银岛"的个人书评这篇书评中有很多个人观点
这位桌游爱好者用了好几段话来评价中国经典名著 "三国演义"
而这位休闲读者用一句话描述了一位著名英国侦探的搭档只用了一句话
当模型尝试解读这条书评时游戏开始了
虽然想出这些例子很有趣但人工创建数据同样无法规模化考虑这些句子补全对其中功能的输出直接与预期答案进行比较这个Evaluation需要数千个示例才能有效
幸好我们在Evaluations框架中提供了SampleGenerator 你可以直接在 ModelSample数组上调用它它会使用你选择的模型合成生成更多样本
要了解更多关于如何合成更大数据集的内容以及ModelSample的高级用法请查看我们的视频《为智能体App创建健壮的Evaluation》
回到BookTagging 我将更新我的dataset属性以包含我们藏书库中所有书籍的书评包括我们之前展示的四本
当我用扩展后的数据集重新运行Evaluation时测试通过了 TagCount平均值仍为100% 而且服务为所有书籍都生成了八个标签现在我们知道服务中存在奇怪的行为
回顾我的期望我已经构建了一个Evaluator 来跟踪标签数量是否在范围内我觉得还需要进一步细化这是我当前的Metric 和Evaluator设置首先我定义一个新的Metric 叫"TagTotal" 用于记录生成标签的数量然后构建一个简单的Evaluator 用于记录生成的 tags数组的长度然后我们使用评分值记录一次测量而不是通过/失败值
使用"TagTotal"和"TagCount"指标我们评估范围合规性以及生成标签的分布情况我们可以遵循类似的模式来检查标签中的单词数量这里我们检查每个标签是否包含空格如果有则返回失败指标识别文学流派同样简单假设你在查找一组已知流派我们检查BookTaggingService 中的knownGenres 然后将每个生成的标签与之进行匹配比较
我们的Evaluation正在不断完善我们已经能够测量最初五个期望中的三个我们的Evaluation报告提供了一幅丰富的图景展示标签服务的表现情况我们用五个汇总指标来追踪三个期望在这里我们可以看到标签的分布情况以及范围合规性和包含流派标签的情况
使用我们的爬坡方法论我们迭代改进了服务的指令这是我们最初的起点
经过对Evaluation的多次更新以及循环中的多次运行
我们可以追踪每次对指令的修改通过我们为验证该修改而添加到Evaluation中的期望
当你采用我们的爬坡反馈循环并以此为核心构建你的开发流程我们称之为评估驱动开发
但我们的服务还没有完全达到规格要求我们仍然期望标签具有信息性与书籍相关并有助于浏览藏书库
有请Yada来讲述关于模型评判器的内容以及它们如何将你的Evaluation提升到新水平谢谢Rob 模型评判器是我们大规模测量定性指标的方式让我向你展示如何构建和完善一个来看一个具体的例子这是Rob在Book Tracker中为"爱丽丝梦游仙境"写的书评
以及我们的服务生成的标签
六个标签单词或连字符形式并包含识别流派的标签我们与Rob一起构建的所有量化指标都通过了
但仔细看 "overrated"和"pretentious" 并不是在描述这本书—— 而是在描述读者对它的感受而"whodunit" 甚至不是正确的流派模型从"riddles he never answers" 中提取了这个词它抓住了书评的语言却没有理解这本书我们的指标都通过了但它们没有给我们正确的反馈信号
但我觉得可以请一个模型来帮助我们如果一个人可以阅读这些标签并告诉我们哪些有效也许模型也可以
太好了！模型确实识别出了某些标签没有帮助
我想让模型评估我的功能生成的所有标签这正是模型评判器的作用！这正是Model Judge的定义 Model Judge是一个用于对功能输出进行评分的语言模型它给出主观评分—— 那种人会做出的判断性决定—— 但能一致地应用到整个数据集上那我们来谈谈它是如何工作的这是驱动你智能功能的模型我们的BookTaggingService 在端侧运行因为它需要对每次用户交互都快速且本地化你可以使用第二个模型作为评判器来评估你的功能你的评判器至少应该与你正在评估的模型一样强大在我们的情况下我们可以使用来自 Private Cloud Compute的更强大模型模型评判器有几个关键组件指令告诉模型它将收到书评以及应该如何评估它功能输入是提供给被评判功能的提示词在我们的例子中就是书评
功能输出是我们服务生成的标签最后评分指南告诉模型如何评估并对功能进行评分 Evaluations框架为你处理大部分这些工作让你专注于评分指南
综合来看这是一个简单的Model Judge 我们定义了一个"TagQuality"指标采用1到4的评分制每个等级都描述了该分数的含义偶数个选项可以防止评判器默认选择居中的中立分数四个等级提供了足够的区分度而不会稀释每个评分的含义
最后我们指定了 Private Cloud Compute作为评判模型这给了我们一个更强大的评估器超越了我们正在评估的端侧模型
在Evaluations框架中 Model Judge只是另一个Evaluator 它遵循与量化Evaluator 相同的协议并产生相同的Metric类型因此你可以在一个 Evaluation中自由混合使用好了来运行吧！
每个样本都获得了 3分或4分的质量评分回到我们的 "爱丽丝梦游仙境"样本 Model Judge给这个样本打了3分的质量评分
查看评判理由我们可以发现模型标记了"whodunit" 和"detective-fiction" 与这本书不相关但我们本来也期望它标记所有这些其他标签这些标签要么反映的是读者的观点要么对浏览没有帮助对于Model Judge来说评判理由至关重要它们让你了解评判器为何给出这样的评分关键在于按照我们写的评分标准评判器其实是对的每个标签都与用户写的内容有所关联评判器忠实地遵循了我们提供的评分指南对于"relevant"和 "useful for browsing"我们有特定的含义而评判器对这些词的理解与我们不同
当我请模型代替我对功能进行判断时我期望它能给出与我相似的评分就像我对这些标签的评分一样当Model Judge与我们的判断出现不一致时我们可以完善Model Judge 直到它能够代替我们自己的判断
回头来看我们第一个 Model Judge的问题在于它太宽泛了它同时在问两个不同的问题当你发现自己对评分有异议时你应该尝试看看是否可以拆分这些问题在我们的案例中相关性和有用性实际上是两个不同的指标来看看如何将"Relevance" 定义为ScoreDimension
当我们说标签是相关的意思是每个标签描述了书本身的某种特质主题或基调而非小细节或读者的个人反应
我们可以将这一点写成 ScoreDimension的description
要对这些标签进行评分你需要逐一检查每个标签识别哪些标签差哪些好基于它们是否有意义地描述了这本书对每个标签重复此过程在这种情况下所有标签都是好的在我们的1到4评分制中可以获得4分你会重复相同的过程来定义评分指南中的每个等级这就是我们的"Relevance"指标包含指标名称描述以及Model Judge可使用的评分标准我可以用相同的方式来定义"Usefulness" 现在我可以将两个维度都添加到ModelJudgeEvaluator中
但仅有维度还不够它们告诉评判器要测量什么但没有告诉它如何理解你的App 如果没有这些背景知识一个评判Book Tracker标签的评判器可能会把读者的评价当作有效的书籍描述词它没有办法知道 Book Tracker是个人书库而不是评论平台这就是ModelJudgePrompt 发挥作用的地方
这是ModelJudgePrompt 的一个示例我们可以在指令中告诉评判器它在评估标签对于一个个人书库App 在evaluationTarget中格式化响应并将expectedTags作为参考供模型进行比较
有关ModelJudgePrompt的更多详情请查看我们的文档现在我们的Model Judge 有了所需的背景知识重新运行我们的Evaluation Quality现在被替换为相关性和有用性评分这是我们"爱丽丝梦游仙境" 书籍样本的Evaluation结果
注意两个评判理由如何分别给出诊断 Relevance告诉我们哪类标签有问题 Usefulness告诉我们错误标签在浏览时如何失效
有了这些结果我现在有了清晰的前进方向我可以更新我的 BookTaggingService指令再次运行Evaluation 看着评分变化这就是Rob带我们了解的反馈循环现在由定性指标驱动你什么时候上传到TestFlight？好了Rob 我最近有点忙！
最后总结几条评估App的最佳实践从小处开始一个包含20到30个样本的专注数据集是很好的起点通过思考你希望模型如何行为来规划App 使用启发式方法衡量可量化的特征这些经验法则指标是开始了解功能的好方法经验法则是：如果可以用代码来测量那就是量化的如果只能用文字描述那就需要定性指标使用ModelJudgeEvaluator 从简单的Model Judge开始定义你的评分维度运行并阅读评判理由你从一次运行中学到的比花数小时仔细规划更多用评判理由来驱动下一次修改如果评分都一样说明你的问题太宽泛了如果无法定位问题则拆分维度如果评判器不了解你的App 则添加背景知识好吧我们应该回去工作了一定要查看我们的文档以及示例代码并观看其他介绍 Evaluations框架的讲座《通过Evaluations爬坡改进你的提示词》以及《为智能体App 创建健壮的Evaluation》再见！拜拜！

// Evaluations
  import Evaluations

  struct BookTaggingEvaluation: Evaluation {
  
  }

8:02 - Run with Swift Testing and an optimization target

// Optimization Target
  @Test("Book Tag Evaluations", .evaluates(evaluation, info: evaluationInfo))
  func evaluateBookTagging() async throws {
      let result = EvaluationContext.current.result
  
      let rangeMetric = BookTagEvaluationTests.evaluation.tagCount
      #expect(result.aggregateValue(.mean(of: rangeMetric)) >= 0.8)
  }

10:09 - Constrain output with a Generable @Guide

// BookTags.swift
  @Generable
  struct BookTags: Codable {
      @Guide(description: "Descriptive tags capturing themes, genres, moods, and topics from the summary", .count(3...8))
      var tags: [String]
  } snippet.

11:15 - Define the dataset with ModelSample

// BookTaggingEvaluation
  var dataset = ArrayLoader(samples: [
      ModelSample(prompt: "okay I am OBSESSED and I need everyone to read this RIGHT NOW...",
                  expected: BookTags(tags: ["classic", "romance", "wit", "regency"])),

      ModelSample(prompt: "Read this in one sitting between midnight and 4am and I cannot...",
                  expected: BookTags(tags: ["classic", "gothic", "horror", "vampire", "suspense"])),
  ])
  
  // Or load your whole library:
  var dataset = ArrayLoader(samples:
      Book.sampleBooks.map { book in
          ModelSample(prompt: book.review, expected: BookTags(tags: book.tags))
      }
  )

12:53 - Synthesize more samples with a SampleGenerator

// Synthesizing more inputs
  let samples: [ModelSample<String>] = [
      ModelSample(prompt: "The largest planet in our solar system...", expected: "Jupiter."),
      ModelSample(prompt: "The capital of Thailand...", expected: "Bangkok."),
      ModelSample(prompt: "Swift is...", expected: "a powerful programming language."),
      ModelSample(prompt: "All those moments will be lost in time...", expected: "Like tears in rain.")
  ]
  
  for try await sample in samples.makeSamples(
      """
      Generate diverse sentence completions about the listed topics:
        - The Solar System
        - World Capitals 
      """,
      targetCount: 1000) {
          samples.append(sample)
  }

14:02 - More evaluators: word count and genre

let wordCount = Metric("WordCount")

  Evaluator { _, subject in
      for tag in subject.value.tags {
          if tag.contains(" ") {
              return wordCount.failing(rationale: "Tag \(tag) contains multiple words")
          }
      }
      return wordCount.passing()
  }

  let hasGenreTag = Metric("HasGenreTag")
  
  Evaluator { _, subject in
      let tags = subject.value.tags.map { $0.lowercased() }
      let knownGenres = await BookTaggingService.knownGenres
      for tag in tags {
          if knownGenres.contains(tag) {
              return hasGenreTag.passing(rationale: "Matched \(tag)")
          }
      }
      return hasGenreTag.failing() 
  }

14:03 - Define a Metric and Evaluator

let tagCount = Metric("TagCount")

  var evaluators: Evaluators {

      // Tag count is within the required 3–8 range
      Evaluator { _, subject in 
          let count = subject.value.tags.count
          if (count >= 3 && count <= 8) {
              return tagCount.passing(rationale: "\(count) tags")
          } 
          return tagCount.failing(rationale: "Got \(count) tags, expected 3–8")
      }
  }

14:27 - Aggregate metrics across samples

let tagCount = Metric("TagCount")
  let tagTotal = Metric("TagTotal")
  
  func aggregateMetrics(using aggregator: inout MetricsAggregator) {
      aggregator.computeMean(of: tagCount)
      aggregator.group("Distribution of Tag Totals") { aggregator in
          aggregator.computeStandardDeviation(of: tagTotal)
          aggregator.computeMean(of: tagTotal)
          aggregator.computeVariance(of: tagTotal)
      }
  }

15:33 - Iterate the feature's instructions (hill-climbing)

// BookTaggingService.swift
  let instructions = Instructions {
      """
      You are a librarian and literary analyst. Given a reader's
      freeform summary of a book they read — describing their
      thoughts, feelings, and what stood out — generate a set of
      descriptive tags reflected in the summary.

      Rules:
       - Return between 3 and 8 tags.
       - Tags should be lowercase, concise (single word or hyphenated), and descriptive.
       - Tags should include the book's genre, chosen from the included list of known genres.
  
      Known Genres:
       - \(Self.knownGenres.joined(separator: ", "))
      """
  }

18:53 - Build a model judge

ModelJudgeEvaluator(
      "TagQuality",
      scale: .numeric([
          4: "Tags are relevant and helpful for browsing",
          3: "Mostly relevant, one tag too vague or generic",
          2: "Several tags are wrong or generic",
          1: "Unhelpful or irrelevant"
      ]),   
      judge: PrivateCloudComputeLanguageModel()
  )

22:17 - Split into score dimensions

// BookTaggingEvaluation.swift
  ScoreDimension(
      "Relevance",
      description: """
          Whether each tag describes a quality, theme, or tone
          of the book itself rather than incidental details or
          the reader's personal reactions.
          """,
      scale: .numeric([
          4: "Every tag describes the book itself",
          3: "Most tags describe the book",
          2: "Some tags describe personal reactions",
          1: "Tags don't meaningfully describe the book"
      ])    
  )
  // Define `usefulness` the same way as a second ScoreDimension.

22:32 - Add dimensions to the judge

// BookTaggingEvaluation.swift
  var evaluators: Evaluators {

      Evaluator {  }  

      Evaluator {  }

      Evaluator {  }
  
      ModelJudgeEvaluator(
          judge: PrivateCloudComputeLanguageModel(),
          dimensions: [relevance, usefulness]
      )
  }

23:17 - Add app context with a ModelJudgePrompt

// BookTaggingEvaluation.swift
  ModelJudgeEvaluator(
      judge: PrivateCloudComputeLanguageModel(),
      dimensions: [relevance, usefulness],
      prompt: ModelJudgePrompt( 
          instructions: """
              You are evaluating tags generated for a personal book-tracking app where users
              organize their library by browsing and filtering tags.
              """,
          evaluationTarget: { value in
              "\(value.tags.count) Generated tags: " + value.tags.joined(separator: ", ")
          },
          reference: { input, _ in 
              let expectedTags = input.expected?.tags.joined(separator: ", ")
              return ["Expected Tags": expectedTags ?? "No expected tags defined"]
          }
      )
  )

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

章节

资源