为智能体 App 打造稳健的评估

为智能体 App 打造稳健的评估

了解如何利用 Evaluations 框架的高级功能，为你的 App 构建稳健的评估。探索涉及工具调用和动态条件的评估流程，以及如何为你的用例定义正确的行为。了解如何生成合成数据、有效使用评审模型，并验证你的数据集以便获得可靠的结果。

章节
- 0:00 - 简介
- 2:21 - BookTracker 中的数据集问题
- 3:46 - 使用 makeSamples 生成合成数据
- 6:27 - 使用 SampleGenerator 自定生成规则
- 8:38 - 采样策略
- 10:11 - 验证合成样本
- 13:04 - 比较评估结果
- 15:09 - 工具调用和工具评估
- 18:54 - 轨迹预期
- 21:26 - 构建工具调用评估
- 22:02 - 用于工具评估的合成数据
- 23:49 - 后续步骤
资源
你好我是Ada 我是Kyle 我们是Evaluations团队的工程师今天我们非常高兴为你介绍 Evaluations框架的一些高级功能 Evaluations框架提供了一种方式用于评估Swift应用中由 Apple 智能驱动的功能追踪功能随时间的改进并确保生产质量该框架在Xcode 27中全新推出支持macOS iOS watchOS和visionOS 如果你还没看过请观看讲座《Meet the Evaluations framework》了解Evaluations框架的构建模块以及另一讲座《Improve your prompts by hill climbing with Evaluations》探索改进 Apple 智能功能的各种策略
本视频将讨论如何应对复杂性以及评估的可扩展性首先我们将介绍如何扩充评估数据集通过生成和验证合成数据然后介绍如何为智能体工作流构建可靠的评估这些工作流涉及一种名为工具调用的特殊模型行为
在"Meet the Evaluations framework"视频中我们介绍了爬山法过程这说明了构建测试和发布 Apple 智能功能的过程本视频将主要关注开发和评估步骤在开发步骤中我们通常从少量样本开始进行评估但功能的复杂度往往超出数据集的覆盖范围构建耗时扩展困难而且很难捕捉到所需的多样性以真正了解功能在现实世界中的表现评估结果的质量取决于背后数据的质量编写优质评估数据非常困难这正是合成数据发挥作用的地方 Evaluations框架提供了API 让你完全通过代码定义样本生成方式构建自己的生成管道通过命令行运行或直接集成到现有工作流中支持基于文本的数据并利用generable宏生成结构化合成数据我和同事一直在开发BookTracker 这是一款使用 Apple 智能功能的个人图书馆应用根据书评自动为书籍添加标签让我们来看看书籍的定义方式我们有一个名为Book的类包含书名作者书评标签和评分我们还定义了其他变量用于支持封面设计我们还定义了sampleBooks 这是一个包含13个Book样本的数组比如这个关于《傲慢与偏见》的样本这13个样本看起来是不错的起点但这个小数据集只能提供有限的视角来了解功能的表现评估结果可能看起来不错却完全具有误导性想想用于评估的各种可能数据来评估我们的标签生成功能
书籍数不胜数数百种类型
以及用户评价刚读完的书籍的无数种方式我们还要考虑现实世界的情况摘要可能模糊或不完整十三个样本无法涵盖所有这些情况我们需要更广泛的覆盖而且不能花费数天手动编写示例让我们来讨论如何扩展数据集以捕获更多的多样性从简单的开始 makeSamples API需要三个组件一个提示词一个数据集以及一个目标数量即样本的数量也就是你希望合成生成的样本数量包括你提供的数据集在这里我定义了一个提示词要求模型建议更多样化的书评样本要编写定义良好的提示词请考虑模型需要哪些信息才能最好地理解任务并处理用户可能提供的各种输入对于我们的数据集我传入了sampleBooks 其中包含我们最初的13个样本
在这里我们使用新的ModelSamples API 将书评作为提示词将书籍标签作为预期输出对于目标数量我设置为一百个样本作为起点请记住 targetCount是最终数据集的总大小包括我们最初的样本因此模型实际上会生成87个新样本你可能想知道多少数据才够用答案是视情况而定对于BookTracker应用一百的目标数量只是起点合成数据生成通常是一个迭代过程包括定义初始数据集生成合成数据验证样本然后分析数据是否具有足够的代表性并持续这个循环直到你满意为止因此评估数据集的正确目标数量完全取决于你的功能功能的用途使用者以及人们与其交互的方式比数量更重要的是覆盖面
所以不要问需要多少样本而要问自己我是否覆盖了功能实际被使用的各种有意义的方式现在我已经定义了所需变量可以使用makeSamples方法了它返回一个包含新生成样本的异步流当我迭代这个流时每个新样本都会被追加到名为expandedDataset的变量中该变量已用初始数据集初始化默认情况下框架使用设备端模型进行生成在大多数情况下设备端模型是不错的选择但你可能想使用自己的模型或自定义模型的运行指令框架提供了灵活性让你为样本生成定义自己的配置让我们来看看如何实现
对于超出提示词数据集和目标数量的更复杂配置框架提供了 SampleGenerator 让你完全掌控生成过程让我们来了解这些配置
sessionProvider是一个闭包返回一个LanguageModelSession 你可以在这里控制哪个模型驱动生成以及什么系统级指令定义任务框架对于我们的合成数据生成我将使用 PrivateCloudComputeLanguageModel 因为其上下文大小更大然后我将添加自定义指令将生成聚焦于特定书籍类型和情绪
我还指定了一组规则对生成样本的期望稍后我会详细介绍先说明一下会话的使用方式框架自动处理批次大小即生成过程中每批处理的样本数量生成器在运行开始时调用一次sessionProvider 然后在各批次中复用该会话这有助于模型在生成过程中保持上下文
但会话的增长有大小限制一种例外情况是当你发出大量请求时提供大型提示词或获得大量输出时你可能会在运行途中耗尽会话的上下文窗口并导致报错在这种情况下生成器会再次调用sessionProvider 获取新的会话以继续生成但新会话不包含上一个会话的上下文因此请确保sessionProvider中的指令是自包含的不要假设它只会被调用一次要了解更多缓解上下文大小限制的方法请观看视频"Build agentic app experiences with Foundation Models" 有了自定义会话提供器你还可以使用SampleGenerator 来自定义samplingStrategy
它控制生成器如何选择示例从初始数据集中选取示例作为模型的上下文示例有两种采样策略可以指定第一种是随机采样
该策略从初始样本中随机选取子集作为向模型展示的示例确保没有重复这保持了输出的多样性无需仔细考虑初始样本的排列顺序第二种采样策略是滑动窗口
该策略按顺序遍历你的初始样本跳过重复项如果数据集具有有意义的顺序可以考虑使用滑动窗口策略
对于我们的生成器我们将使用随机策略因为我们的初始样本没有有意义的排列顺序由于这是默认策略我们无需在此明确定义
现在我们已经配置了生成器使用了自定义sessionProvider 可以调用.run函数了它返回一个新合成样本的流当我们遍历每个样本时它会被添加到之前定义的expandeDataset中
现在我们已经设置好配置了让我们来探讨如何确保合成数据符合预期这就是验证器闭包发挥作用的地方验证器让你定义自己的逻辑来接受或拒绝每个生成的样本我们已经定义了一组规则在之前会话提供器的指令中但这并不能保证输出会真正遵循这些规则让我们来回顾一下我们定义的第一条规则是书评至少要有100个字符每篇书评还应涵盖广泛的类型情绪和风格书评长度也需要有所变化模型还应该生成 3到8个书籍标签标签必须为小写字母为了了解需要对哪些内容进行验证我们需要考虑可以根据这些规则进行系统性检查的内容此外验证器闭包对每个样本独立进行验证不包含对其他样本的上下文回顾这些规则我可以判断出书评的多样性需要更多的主观判断超出了简单验证检查的范围书评长度的评估需要综合所有样本进行考量
对于其他规则我们可以系统地进行评估使用验证器闭包对于第一条规则我们可以定义书评长度验证以一本大家都熟悉的经典书籍为例比如Mary Shelley 的《弗兰肯斯坦》我们可以检查生成的样本是否定义了书评且长度至少为100个字符模型还会为每篇书评生成标签这意味着我们可以验证标签数量是否在3到8个之间
最后我们可以检查标签是否全为小写字母
在这里我已经在SampleGenerator中定义了这3个验证指标以检查样本是否符合预期结构那么结果最终存储在哪里呢随着生成的进行有效样本会被收集到 SyntheticGenerator的samples属性中任何未通过验证的样本会自动被归类到invalidSamples中两者在整个运行过程中实时更新你可以随时访问它们可在迭代过程中查看进度也可在循环结束后查看然后你可以直接在应用中使用这些结果或将数据集保存到本地现在让我们查看使用13个初始样本的评估结果在Xcode 27中我们推出了新的Evaluations报告用于可视化你的评估结果这是使用13个初始样本的 BookTaggingEvaluation 如你所见标签质量得分相当高评估了相关性和实用性两个维度我已经使用包含100个样本的新数据集运行了评估现在我们可以使用Compare按钮比较这两次评估我们预期分数会下降
我们的预测是正确的质量分数已经下降了我们的标签生成功能之前看起来表现良好因为我们没有使用全面的数据集对其进行测试通过在更大的数据集上运行评估分数下降可能表明多种不同的问题思考一下这个信号可能意味着什么分数变化可能是由于提示词或指令存在问题你可以完善其中一个或两者以更好地满足你的需求你也可以考虑 Apple 智能功能中存在的不足或者你可能需要调整评估来了解你实际上在评估什么最后你的数据集可能仍不够具有代表性需要捕获更多的变化你可以继续扩充数据集或包含更多边缘案例使用合成数据API 这些是进一步提升结果的核心方法
现在我们已经有了构建可靠评估数据集的方法使用合成数据我想更进一步到目前为止我们一直在评估书籍标签功能但当我们的应用变得更加复杂时需要执行多个操作才能完成搜索等任务时这正是工具调用发挥作用的地方我把这部分交给Kyle 来展示它是如何工作的谢谢Ada 现在让我们继续评估驱动开发介绍工具评估到目前为止我们一直在评估模型的生成内容对于我们的功能即书籍标签但 Apple 智能功能通常需要很多幕后步骤才能生成输出它们在应用中执行多个操作每个操作都对结果有所贡献工具为模型工作流添加了结构当它们为应用用户完成任务时
你使用它们来操作人们每天使用的真实数据
它们可以使用你定义的任何自定义业务逻辑运行
它们可以调用用户可以直接调用的功能或为 Apple 智能功能提供全新逻辑或两者的组合关键是模型可能会给你一个听起来合理的答案却从未调用正确的工具最终输出可能看起来正确但到达那里的路径并不正确让我们来讨论这些挑战以及工具评估如何帮助你应对它们
首先是指令遵循你需要告诉模型如何使用每个工具对细节的关注至关重要
尝试自己逐字逐句地遵循指令看看你是否会遗漏某个步骤
然后是工具复杂性工具可以接受简单指令或需要微调参数范围
然后是边缘情况工具对常见输入可能运行良好但在罕见输入上可能表现出人意料
这就是我们需要工具评估的原因它们让你验证的是方式而不仅仅是结果
模型应该调用正确的工具使用正确的参数按预期的顺序而且在此过程中你还要检查中间是否没有出现意外的工具调用
让我们来实践一下构建第一个工具评估在BookTracker应用中我们添加了一个图书馆助手用户可以搜索一本书而不仅仅是根据书名和其他字符串筛选书籍模型使用应用的自定义工具查找相关书籍
有一个searchBooks工具用于查找可能有相似标签的书籍还有一个getBookDetails工具用于提取书籍元数据如从搜索结果中提取出版日期
然后是findSimilarBooks工具用于对相似书籍进行语义搜索我们将多个步骤链接在一起每个步骤都是一次工具调用这是SearchBooksTool
它符合Tool协议有一个模型可以看到的名称还有一个描述告诉模型何时使用此工具
参数是一个Generable结构体注意这些都是可选的模型根据用户的请求决定使用哪些筛选器
如果你提示模型查找哥特风格书籍我们期望它填充 tag参数如果你提示模型显示一些令人愉快的内容我们期望生成情绪搜索这些正是我们想要评估的决策类型好的以上是对工具的简要回顾现在让我们编写第一个工具评估并查看表现工具评估的主要组件是轨迹期望会话记录中包含提示词响应和工具调用
轨迹期望检查顺序以及语言模型会话中每次工具调用的类型你可以将轨迹期望检查想象成回顾你在规划路线时所做的决策列表汽车自行车和公共汽车都是工具各有其适用的时间和场合但你可以评估它们在特定旅途中每个路段的效用
期望会检查所有工具调用然后对每一个根据你在评估中编写的期望进行检验这是代码形式的一个简单案例我们的提示词是 "查找标记为gothic的书籍" 我们期望一次工具调用"searchBooks" 这是一个TrajectoryExpectation 它描述了我们期望在模型记录中看到的工具调用这里的unordered意味着我们不在意工具调用发生的时间只要它发生即可我们可以通过向期望添加参数来进一步细化这里我添加了一个参数期望标签为"gothic" 精确匹配并不总是你所需要的如果提示词是 "查找令人愉快的内容" 模型可能会传递uplifting happy cheerful — 这些都可以
.naturalLanguage匹配器检查值是否与意图匹配而不是精确的字符串还有一整套适用于不同情况的匹配器 contains oneOf pattern range等等查看开发者文档获取更多信息对于多步骤任务顺序至关重要
这里模型必须首先调用"searchBooks" 然后调用"getBookDetails" 如果智能体先尝试获取详情此时还没有bookId 这就是个错误轨迹期望能捕捉到这个问题因为我们在检查过程而不仅仅是目的地
有时智能体不应该做什么同样重要
如果提示词包含 "不要查找相似书籍"等要求模型应该遵循指令 disallowed参数指定不得出现在记录中的工具如果智能体仍然调用了 "findSimilarBooks" — 这就是失败这是所有轨迹期望汇集的地方在完整评估中我们定义一个样本数据集每个样本都有提示词和轨迹期望并使用ToolCallEvaluator对其评分 ToolCallEvaluator将 LanguageModelSession与工具结合获取响应并捕获结构化的记录
工具调用评估结果显示在Xcode助手中与其他结果一起显示你可以全面了解 Apple 智能功能的行为表现等等我们还可以使用Evaluations API 为工具评估生成合成数据好的让我们这样做轨迹期望也是可生成的扩展工具评估的数据集可能相当复杂而Evaluations框架让这一切变得更加简单由于我们的工具调用评估利用了ModelSample 和可生成的 TrajectoryExpectation 我们可以像之前一样使用样本生成器合成更多样本我已经定义了一个提示词和sessionProvider的自定义指令在为工具评估创建合成数据时请注意模型不知道你定义了哪些工具也不知道工具需要以什么顺序调用所以在这里我指定了可用工具并解释了它们的用途任何顺序期望以及模型可能需要的其他上下文然后我们可以定义sampleGenerator 并使用现有数据集作为初始样本以及100的targetCount 我们也可以在这里指定验证指标在这里我确保始终存在期望我还确保合成样本至少包含一个工具最后任何被调用的工具都是我们已经定义的实际工具这就是你如何生成并验证工具评估的合成样本合成数据API 是一种强大的方式将现有数据集扩展到超出手动能力的范围数据越具有代表性分数就越能反映现实好的 Kyle 交给你了这就是一切汇聚的地方之前我们构建了书籍标签评估检查模型的生成内容标签数量类型覆盖率质量分数现在我们有了工具评估它们检查模型如何达到目标正确的工具正确的参数和正确的顺序在同一评估套件中运行两者你将对功能建立端到端的信心现在我们已经介绍了一些让评估更加可靠的方法你可以开始将这些想法应用到应用和评估数据集中要开始请尝试创建自己的合成数据评估应用中的自定义工具并查看开发者文档中的示例应用和其他文章
哇Ada 我们今天覆盖了很多内容是的确实如此但真正的惊喜是你用它构建的东西不过不剧透希望你喜欢学习 Evaluations框架的内容

5:16 - Generate synthetic data with makeSamples

// Synthetic data
  let prompt = Prompt("""
      Generate diverse range of book reviews and corresponding tags.
      Cover a wide range of genres, time periods, cultures, and
      reader personas. Do not repeat books already in the dataset.
      """)
  
  let dataset = Book.sampleBooks.map { book in
      ModelSample(prompt: book.review, expected: BookTags(tags: book.tags))
  }
  
  let targetCount = 100
  var expandedDataset = dataset

  for try await sample in dataset.makeSamples(prompt, targetCount: targetCount) {
      expandedDataset.append(sample)
      print("Generated \(expandedDataset.count) samples so far.")
  }

  2. Configure a custom SampleGenerator — slides 30–43
  
  // Define your own configuration
  let generator = SampleGenerator<ModelSample<BookTags>>(
      prompt,
      samples: dataset,
      targetCount: targetCount,
      sessionProvider: {
          LanguageModelSession( 
              model: PrivateCloudComputeLanguageModel(),
              instructions: """
                  You are a synthetic data generator for a book-tracking app's evaluation suite.
                  Your job is to produce realistic, diverse book entries that will stress-test
                  a tagging system.

                  Rules:
                  - Review must be at least 100 characters long.
                  - Review should cover a mix of genre, mood/tone, and themes.
                  - Reviews should vary in length.
                  - Create between 3 and 8 tags.
                  - Tags must be lowercase.
                  """ 
          )
      }
  )

5:53 - Configure a custom SampleGenerator

// Define your own configuration
  let generator = SampleGenerator<ModelSample<BookTags>>(
      prompt,
      samples: dataset,
      targetCount: targetCount,
      sessionProvider: {
          LanguageModelSession( 
              model: PrivateCloudComputeLanguageModel(),
              instructions: """
                  You are a synthetic data generator for a book-tracking app's evaluation suite.
                  Your job is to produce realistic, diverse book entries that will stress-test
                  a tagging system.

                  Rules:
                  - Review must be at least 100 characters long.
                  - Review should cover a mix of genre, mood/tone, and themes.
                  - Reviews should vary in length.
                  - Create between 3 and 8 tags.
                  - Tags must be lowercase.
                  """ 
          )
      }
  )

10:37 - Validate generated samples

// Define validation metrics
  validator: { sample in
      guard let book = sample.expected else { return false }

      // Review must be at least 100 characters
      guard sample.promptDescription.count >= 100 else { return false }

      // Must have between 3 and 8 tags
      guard (3...8).contains(book.tags.count) else { return false }

      // All tags must be lowercase
      guard book.tags.allSatisfy({ $0 == $0.lowercased() }) else { return false }

      return true
  }

10:58 - Access valid and invalid results

// Accessing results
  for try await sample in generator.run() {
      // During iteration
      expandedDataset.append(sample)
  }

  // After iteration
  let allSamples = await generator.samples
  let invalidSamples = await generator.invalidSamples
  
  print("Generated \(allSamples.count) new samples. Total: \(expandedDataset.count)")

15:30 - Define a tool's Generable argument

@Generable
  struct SearchBooksArguments {
      @Guide(description: "A freeform search term to match against titles, reviews, or tags")
      var query: String?
  
      @Guide(description: "Filter results to books with this specific tag")
      var tag: String?

      @Guide(description: "Filter results by mood")
      var mood: String?

      @Guide(description: "Filter results by genre")
      var genre: String?

      @Guide(description: "Maximum number of results to return. Defaults to 5.")
      var limit: Int? 
  }

16:37 - A basic trajectory expectation

// "Find books tagged gothic"
  TrajectoryExpectation(
      unordered: [
          ToolExpectation(
              "searchBooks",
              arguments: [
                  .exact(argumentName: "tag", value: .string("gothic"))
              ]
          )
      ]
  )

17:07 - Match arguments by intent (naturalLanguage)

// "Find something cheerful"
  TrajectoryExpectation(
      "searchBooks",
      arguments: [
          .naturalLanguage(
              argumentName: "mood",
              criteria: "Should relate to uplifting, hopeful, or positive feelings"
          )
      ]
  )
  Other matchers available: .contains, .oneOf, .pattern, .range, and more.

17:34 - Expect tool calls in order

// "Find gothic books and show details on the first"
  TrajectoryExpectation(
      ordered: [
          ToolExpectation(
              "searchBooks",
              arguments: [
                  .exact(argumentName: "tag", value: .string("gothic"))
              ]
          ),
          ToolExpectation(
              "getBookDetails",
              arguments: [
                  .keyOnly(argumentName: "bookId")
              ]
          )
      ]
  )

17:55 - Disallow specific tool calls

// "Show only sci-fi books. Don't look for similar ones."
  TrajectoryExpectation(
      unordered: [
          ToolExpectation(
              "searchBooks",
              arguments: [
                  .naturalLanguage(
                      argumentName: "genre",
                      criteria: "Should refer to science fiction")
              ]
          )
      ],
      disallowed: [
          ToolExpectation("findSimilarBooks")
      ]
  )

18:14 - Build a tool call evaluation

// Tool call evaluations
  let samples = SampleArrayLoader(samples: [
      ModelSample(
          prompt: "Find all the books tagged with 'gothic'.",
          instructions: "Help the user explore their book collection.",
          expectations: TrajectoryExpectation(  )
      )
  ])

  struct BookLibraryToolCallEval: Evaluation {
      var dataset = samples

      let pass = Metric("All Passed")
      let percent = Metric("Percentage Passed")

      var evaluators: Evaluators { 
          ToolCallEvaluator(allPass: pass, percentagePass: percent)
      }
  }

19:20 - Synthesize tool-evaluation samples

// Tool call evaluations
  let prompt = Prompt("""
      Generate diverse user queries for a personal book library assistant.
      Each sample needs a prompt (what the user says), and a trajectory
      expectation describing which tools should be called and in what order.
      """)

  let instructions = """
      AVAILABLE TOOLS:
      - searchBooks(query?, tag?, mood?, genre?, limit?): search the library
      - getBookDetails(bookId): full details for one book
      - findSimilarBooks(bookId, maxResults?): find books sharing tags
      ORDER REQUIREMENTS:
      - searchBooks must comes before getBookDetails or findSimilarBooks
      - Use TrajectoryExpectation(ordered:) when sequence matters, else (unordered:)
      USE THESE ARGUMENT MATCHERS:
      - .exact for precise values, .naturalLanguage for fuzzy matching
      - .keyOnly when any value is acceptable, .range for numeric constraints
      - .contains/.hasPrefix/.hasSuffix for partial string matching
      """

19:51 - Validate tool-evaluation samples

// Tool call evaluations
  validator: { sample in
      // Must have expectations defined
      guard sample.output.expectations != nil else { return false }

      let expectations = sample.output.expectations!

      // Must reference at least one tool
      let totalExpectations = expectations.ordered.count + expectations.unordered.count
      guard totalExpectations > 0 else { return false }

      // All tool names must be from the valid set
      let validTools: Set<String> = ["searchBooks", "getBookDetails", "findSimilarBooks"]
      let allExpectations = expectations.ordered + expectations.unordered + expectations.disallowed
      for expectation in allExpectations {
          guard validTools.contains(expectation.name) else { return false }
      }
  
      return true
  }

  ---

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

章节

资源