将 LLM 提供平台引入 Foundation Models 框架

将 LLM 提供平台引入 Foundation Models 框架

通过为新模型实现 LanguageModelExecutor，进一步扩展 Foundation Models 框架。探索如何与 LanguageModelSession 的对话记录进行交互、有效管理会话状态，并优化 KV 缓存的利用率。了解如何支持自定分段类型，并为你的生成式 AI 功能解锁高级能力。

章节
- 0:00 - 简介
- 3:37 - 打包
- 4:48 - 协议
- 14:50 - 认证
- 15:51 - 自定
- 19:47 - 后续步骤
资源
相关视频

WWDC26
你好！我是Christopher Webb 机器学习研究团队的工程师我很高兴向你介绍一种使用Foundation Models框架的新方式我们之前推出了 Foundation Models框架让你能够使用 Apple的设备端语言模型现在我们正在开放该框架以支持几乎所有LLM 无论是本地还是基于服务器的这让所有人从大型公司到独立开发者都能轻松在该框架之上构建自己的模型集成
设备端系统语言模型已从头全面重建它更智能更擅长遵循指令并且可以直接在提示词中接受图像输入除了系统模型我们还新增了三个选项 Private Cloud Compute带来了 Apple 智能许多功能背后的模型现在支持推理 32K token上下文窗口以及你所期待的隐私保障 Core AI让你高效运行本地模型并充分利用ANE 而MLX则开放了数千个可用模型通过Hugging Face上的 MLX-Community
由于这些都建立在全新的公共协议之上开发者可以将前沿AI模型使用同一框架集成到他们的App中 Anthropic和Google即将扩展 Foundation Models框架推出各自的Swift包让最先进的Claude 和Gemini模型面向所有Swift开发者开放无论你使用哪种模型 Apple的你自己的或社区的调用方式完全相同因为每个模型都遵循 Language Model协议对于App开发者我将向你展示如何调用这些模型中的任意一个通过相同熟悉的API 对于模型提供商我将引导你创建自己的Language Model包但首先让我向你展示使用它有多简单这是我们的设备端Foundation Model 创建它传入Session 然后调用respond函数还有更多模型选项如果你需要更强的算力试试Private Cloud Compute 只需替换模型即可如果你想集成自己的模型只需将CoreAI指向你的资源如果你想尝试最新的开源模型只需传入一个模型ID 让框架处理其余的一切
使用基于Language Model协议构建的模型意味着你可以使用各种出色的 Foundation Models功能例如Dynamic Profiles 要了解我们新增内容的概览请观看《What's new in the Foundation Models framework》
之所以能如此轻松地切换模型是因为每个LanguageModel 都遵循同一协议 System Language Model PCC Core AI MLX 以及社区构建的模型如果你是模型提供商欢迎加入！让我来展示如何操作将模型接入框架共分四个步骤我们从打包开始一个精心设计的Swift包能让开发者轻松上手然后实现协议通过定义描述模型的类型以及运行它的Executor 接下来我们将讨论如何实现基于服务器的模型的身份验证以及一些最佳实践最后是自定义如果你需要定制协议的构建模块以满足你的需求完全可以从附加响应元数据到定义全新的模态首先是打包我们建议使用Swift Package Manager 让开发者可以直接将你的包添加作为App的依赖项我们将介绍如何配置Package.swift 以及如何发布版本一个重要的考量是你想要支持哪些平台 Foundation Models支持iOS macOS visionOS 和watchOS 让开发者能够创建多种多样的体验我们建议你也尝试做到同样的支持同时由于 Foundation Models框架正在以开源方式发布你的包也可以对那些开发者有用那些在服务器上部署Swift的开发者因此也考虑支持Linux 第三你的依赖项每个依赖项都转化为字节随App发送给用户仔细考虑你的包链接了哪些依赖项
发布你的包就像创建git标签一样简单 Swift Package Manager是去中心化的因此你的仓库URL 就是你的分发渠道开发者可以粘贴URL 到Xcode并开始集成你的模型到他们的App中更多信息请观看《Creating Swift Packages》包已就绪我们继续讲协议协议是你的模型与框架之间的桥梁即Foundation Models框架协议有两个关键部分第一个是LanguageModel 它向框架描述模型它声明模型的能力通过capabilities 并提供框架所需的配置来设置模型的Executor
第二部分是LanguageModelExecutor 实际工作发生的地方它有一个接受Configuration的初始化器一个用于在首次请求前准备资源的prewarm函数在第一个请求之前以及一个respond函数将生成内容流式传输回Session
Configuration是连接两种类型的纽带 Model提供它框架用它来构建Executor 现在你已经看到了代码中的协议让我们建立对模型配置如何将其链接到Executor的直觉每个Session持有一个Executor存储当Model1到来时框架使用模型的配置检查存储但没有匹配的Executor 因此 LanguageModelSession 创建一个新的Executor并存储它 Model2产生相同的配置由于Configuration是Hashable的框架知道它匹配并解析到同一个Executor 配置是查找键而不是模型 Model3产生不同的配置因此它有自己的Executor 每个唯一的配置在存储中对应一个Executor
那么这在你的代码中是什么样的呢这是一个LanguageModel实现它声明了它的capabilities 并返回框架用来查找其Executor的配置
Executor是真正工作所在的地方加载权重管理资源并将token流式传回Session 框架从你的模型提供的配置构建它然后在每次请求时传入模型这种分离使你的Model 构建起来非常简单当Session释放时存储也随之释放每个存储的Executor都被释放你的deinit运行权重被释放连接被关闭全部自动完成你不需要自己编写任何清理代码在该生命周期中你的Executor还有一个函数：prewarm 在请求到来之前开发者可以要求框架进行预热这是你提前完成耗时初始化的机会例如加载权重建立连接或任何可能减慢第一次响应的操作让我们看看如何使用它一种方法是将该初始化放入私有辅助方法该方法只加载一次权重并缓存它们 prewarm会主动调用该辅助方法这样在第一个请求到来前权重就已就绪但prewarm不保证一定会运行
无论如何权重只加载一次如果你的Executor 没有耗时的初始化例如基于服务器的模型 prewarm可以简单地是空操作一旦你的respond函数被调用你的Executor就开始工作它将对话的转录内容转换为你的模型期望的格式它应用开发者设置的选项并将生成事件流式传输到Session
从开发者的角度来看 Session是整个交互界面他们初始化模型创建Session 调用respond并等待你的Executor以及你包中的其余部分这一切都在Session背后不可见开发者从不看到这些机制但这就是幕后发生的事情框架将transcript条目传递给你但你的推理引擎只能处理其原生类型因此你的Executor处于中间位置将条目转换为你的推理引擎能够理解的消息并传递给推理引擎进行推理当你的推理引擎响应时同样的转换反向进行将消息转回transcript条目流式传输到Session
现在让我们专注于流入和流出Executor的transcript 流入流出Executor的transcript
transcript是迄今为止的对话以一系列条目的形式表示每个条目扮演一个角色由开发者设置的instructions 来自用户的prompts 你的模型发出的工具调用以及它们返回的输出以及你的模型产生的响应
拉远来看你的Executor的工作是将每个transcript条目转换为你的推理引擎能够读取的消息那么 transcript里有什么 Foundation Models定义了这六种条目类型
你的模型定义了自己的角色你的Executor的工作是在两者之间映射无论你的模型是什么形态在这个例子中 instructions prompt和response 映射到system user和assistant 这里工具调用工具输出和reasoning都映射到assistant 它们是模型在其回合中所做事情的一部分由于该模型没有专用角色来处理这些我们只是将它们映射到assistant 如果你的模型确实定义了类似专用工具角色的东西你可以路由到那里无论如何你的Executor始终保持控制你的Executor读取对话但每个请求携带的不仅仅是历史记录它携带着开发者对模型如何响应的意图通过两个额外属性表达
每个请求对象都可以包含ContextOptions 和GenerationOptions ContextOptions控制哪些内容进入提示词例如你希望模型使用的推理级别或响应schema GenerationOptions控制解码循环采样策略温度以及最大响应长度
这在respond内部是什么样的呢两种类型的选项都通过请求传入你的Executor提取它们并在调用模型时传递这就是所有传入的内容 transcript 选项全部解析完毕现在是开发者看到的部分响应在响应端有几件事需要发送你的推理引擎生成的文本任何工具调用或推理内容以及随之传递的元数据它们都以事件形式通过channel发出推理引擎发出的每个块一个token或工具调用片段都成为一个事件 textDelta toolCallDelta等等框架将它们写入transcript Foundation Models同时提供一次性响应和流式响应但实现始终是流式的一次性API只是在内部收集delta
目前为止我们从你模型的角度来看这个问题随着模型生成事件不断发出但把自己想象成开发者的角度他们调用了respond 正在等待他们最先需要什么
这是你的Executor 与开发者的握手协议有一个刻意的顺序首先是元数据更新开发者可用于日志记录和调试的模型和请求ID 然后是用量更新用于计费的提示词token数量提前发送这些意味着开发者不必等到整个流结束才能知道每次请求的费用最后对于模型产生的每个token 在它到达的瞬间发送文本delta 框架将这些delta 在到达时流式传输到Session 这样用户就能看到响应逐词显示而非一次全部出现之前我们看到了框架如何按配置缓存Executor 如果你的集成是有状态的持有KV缓存或调用间的持久化Session 这种缓存让你能最小化网络开销避免重复工作现在让我们看看如何设计你的实现以及你的Executor 如何跨调用保留工作你的Executor在每次 respond调用时接收完整的transcript 这是你上次处理的内容一条instruction 一个prompt 以及你生成的响应当下一次调用到来时你将新的transcript 与上次保存的进行比较在大多数情况下新条目只是被追加在上次响应后有一个新的prompt 当这种情况发生时你可以保留你现有的状态只处理新的内容但有时你的比较发现条目被删除或修改了例如当开发者裁剪旧条目以节省上下文时当这种情况发生时你需要回滚到两个transcript分叉的地方框架在每次调用时都给你完整的transcript 你的Executor决定什么算作匹配以及如何处理变更有时你的模型无法完全完成开发者的请求当这种情况发生时你的Executor 有两种选择：近似或抛出异常尽可能灵活尊重开发者的意图但有时没有诚实的近似方案如果开发者设置了token限制但同时指定了一个带有必填字段的schema 可能无法同时满足两者所以你抛出异常 Foundation Models为这类情况专门提供了LanguageModelError 上下文窗口溢出速率限制拒绝响应等抛出其中之一任何使用过该框架的开发者都知道如何处理它
当内置的LanguageModelError 无法覆盖你的情况时定义你自己的错误类型某些失败只在你服务的上下文中有意义你的订阅等级你的功能你的账户状态一个专为目的设计的 case名称传达了意图这样开发者捕获它时就能确切知道发生了什么自定义错误很强大有时你需要它们但每一个都是开发者必须学习的新case 需要在App中捕获和处理尽量使用合适的内置 LanguageModelError 将自定义错误留给只有你的服务才能产生的故障我们已完成了协议要求的实现接下来让我们讨论如何处理身份验证作为包作者你的工作是让开发者轻松做正确的事如果你的初始化器接受字符串形式的API密钥开发者会被诱惑走阻力最小的路径相反帮助开发者做正确的事提供token提供者或登录流程如果你的包代表开发者获取访问token 务必使用Keychain安全地持久化它们凭据处理只是一半设备认证是另一半如果你正在发布基于云的LanguageModel包这值得深入研究这个相关Session将介绍如何验证设备检测篡改的构建对有效载荷签名以及使用Apple的欺诈信号防止恶意流量进入你的服务请查阅 "Secure your apps with App Attest" 你已经打包了你的模型实现了协议并处理了身份验证这意味着你已经为你的LanguageModel构建了一个涵盖所有基础的稳固包现在是时候进行差异化了该协议给了你空间来塑造 LanguageModelSession 围绕只有你的模型才能提供的能力响应元数据是一个轻量级选项可以为你的响应附加额外信息并为开发者提供清晰的访问方式
你可以将自己的自定义元数据附加到响应这里流式传输完成后我们的Executor发送tokensPerSecond 和timeToFirstToken 通过channel传输我们建议提供工具或文档让开发者方便地使用你的元数据清晰的键类型化的访问器任何有意义的形式在底层元数据只是一个字典它可以包含字符串数字和其他内置类型但在某些情况下你可能需要更灵活的东西
自定义segment就是答案你将定义一个新的segment类型在你的Executor中接收它并通过同一channel 流式传输结果开发者无需离开 LanguageModelSession即可使用自定义segment类型让你能够扩展协议当新的模态出现时音频视频或任何新出现的开发者有一种类型化的结构化方式将数据发送到你的模型以下是它的工作原理首先你将定义一个遵循custom segment的类型由于custom segment 需要PromptRepresentable 开发者可以直接在提示词中传递它就像文本一样在你的Executor中你将在transcript中接收到customSegment 与你已经处理的文本条目并排当你的模型响应时你通过channel 将结果发回作为custom segment更新 segment ID控制你是否在添加新segment 还是更新已经开始流式传输的segment 这给了你完全的控制结果如何流式传输到App 有了custom segment 还有一件事值得提及关于服务器端工具的建议服务器端工具是你的模型自主运行的能力例如网络搜索代码执行或图像生成模型调用它们服务器运行它们你的Executor观察结果流入我们将介绍三个详细级别每个级别呈现更多工具的工作细节以网络搜索为例服务器端工具是你模型上命名的类型化值开发者使用他们想要的工具构建模型你的Executor在每次请求时通过模型接收它们与模型声明的其他所有能力接收方式相同首先最简单的模式私下运行工具只将答案流式传输回来该工具为模型的响应提供基础但其工作保留在你的Executor内部
你追加的每个文本delta 都被框架流式传输到transcript 没有产生它的工具的任何痕迹除了在工具输出的基础上提供答案你还可以将额外的元数据附加到响应当文本delta携带元数据时例如引用将两者都转发到channel 框架会将元数据附加到 transcript中的文本segment
最后你可以选择呈现工具的工作本身使用custom segment 将工具的结构化输出转发到channel 与文本和任何元数据一起为App提供模型沿途产生的一切通过一个channel 你转发的事件你附加的元数据以及你设计的custom segment 服务器端工具塑造了使用你包的App 能够向用户展示什么还有一件事需要记住无论你是选择一个包还是发布一个包确保链条中的每个人都了解其背后模型的隐私影响设备端和基于云的模型具有非常不同的隐私特征你的用户应该知道他们使用的是哪种你已经了解了如何将你的模型接入框架这些Session展示了开发者将用它构建什么观看《Integrate On-Device AI Models into Your App Using Core AI》了解如何将本地模型直接打包到App中《Build with the new Apple Foundation Model on Private Cloud Compute》深入讲解了基于Apple隐私保障的服务器规模推理以及"Build agentic app experiences with the Foundation Models framework" 展示了开发者如何使用dynamic profiles 构建多步骤使用工具的工作流在像你的模型之上我们对未来充满期待我们希望看到 LanguageModel包的繁荣生态赋予Swift开发者自由选择适合其App的模型我们迫不及待地想看看你会构建什么

import FoundationModels
import MLXFoundationModels

// On-device Apple Foundation Model
let model = SystemLanguageModel()

// Private Cloud Compute model
// let model = PrivateCloudComputeLanguageModel()

// Custom Core AI model
// let model = try await CoreAILanguageModel(resourcesAt: modelURL)

// Open-source MLX model from HuggingFace
// let model = MLXLanguageModel(modelID: "mlx-community/my-model")

let session = LanguageModelSession(model: model)
let response = try await session.respond(to: "...")
print(response.content)

3:46 - Configure Package.swift for your model package

// Package.swift

let package = Package(
    name: "MyModel",
    platforms: [
        .macOS(.v27), .iOS(.v27), .visionOS(.v27), .watchOS(.v27)
    ],
    products: [
        .library(name: "MyModel", targets: ["MyModel"])
    ],
    dependencies: [
        .package(url: "...", .upToNextMinor(from: "1.0.0"))
    ],
    targets: [
        .target(name: "MyModelRuntime"),
        // public: LanguageModel conformance
        .target(name: "MyModel", dependencies: ["MyModelRuntime"]),
        .testTarget(name: "MyModelTests", dependencies: ["MyModel"])
    ]
)

4:56 - LanguageModel and LanguageModelExecutor protocols

// LanguageModel protocol

public protocol LanguageModel: Sendable {
    var capabilities: LanguageModelCapabilities { get }
    var executorConfiguration: Executor.Configuration { get }
}

// LanguageModelExecutor protocol

public protocol LanguageModelExecutor: Sendable {
    init(configuration: Configuration) throws
    func prewarm(model: Model, transcript: Transcript)
    func respond(
        to request: LanguageModelExecutorGenerationRequest,
        model: Model,
        streamingInto channel: LanguageModelExecutorGenerationChannel
    ) async throws
}

6:25 - Implement LanguageModel and Executor conformances

// LanguageModel conformance
public struct MyLanguageModel: LanguageModel {
    typealias Executor = MyLanguageModelExecutor

    public var capabilities: LanguageModelCapabilities {
        LanguageModelCapabilities(capabilities: [
            .toolCalling, .guidedGeneration, .reasoning
        ])
    }

    public var executorConfiguration: Executor.Configuration {
        Executor.Configuration(/* ... */)
    }
}

// Executor conformance
public struct MyLanguageModelExecutor: LanguageModelExecutor {
    public typealias Model = MyLanguageModel

    public struct Configuration: Hashable, Sendable { /* ... */ }

    public init(configuration: Configuration) throws { /* ... */ }

    public func respond(
        to request: LanguageModelExecutorGenerationRequest,
        model: MyLanguageModel,
        streamingInto channel: LanguageModelExecutorGenerationChannel
    ) async throws { /* ... */ }
}

7:28 - Manage model resources with prewarm and respond

// One approach to managing resources

struct MyLanguageModelExecutor: LanguageModelExecutor {

    private mutating func loadModelIfNeeded() throws -> LoadedWeights {
        let weights = try loadedModel ?? loadWeights()
        loadedModel = weights
        return weights
    }

    func prewarm(transcript: Transcript) {
        loadedModel = try? loadModelIfNeeded()
    }

    func respond( ... ) async throws {
        let weights = try loadModelIfNeeded()
        // ...generate with 'weights'...
    }
}

9:00 - Map Transcript entries to model messages

// Transcript entries

let transcript = Transcript(entries: [
    .instructions( ... ),  // "You are a helpful assistant"

    .prompt( ... ),        // "What's the weather in Pittsburgh?"
    .toolCalls( ... ),     // getWeather(location: "Pittsburgh")
    .toolOutput( ... ),    // 65°F, sunny
    .response( ... ),      // "It's 65°F and sunny in Pittsburgh"

    .prompt( ... ),        // "What's the address of Apple Park?"
    .response( ... ),      // "One Apple Park Way, Cupertino, CA 95014"
])

10:42 - Read generation and context options from the request

// Parse generation and context options

func respond(
    to request: LanguageModelExecutorGenerationRequest,
    model: MyLanguageModel,
    streamingInto channel: LanguageModelExecutorGenerationChannel
) async throws {
    let reasoningLevel = request.contextOptions.reasoningLevel
    let temperature = request.generationOptions.temperature
    let maxTokens = request.generationOptions.maximumResponseTokens
}

11:47 - Stream tokens and metadata through the channel

// Streaming text tokens

func respond( ... ) async throws {
    // 1. Report metadata
    await channel.send(.response(action: .updateMetadata([
        "modelID": "my-model-2026-06-08",
        "requestID": request.id.uuidString
    ])))
    // 2. Report prompt token usage before generating
    await channel.send(.response(action: .updateUsage(
        input: .init(totalTokenCount: promptTokens, cachedTokenCount: cachedTokens),
        output: .init(totalTokenCount: 0, reasoningTokenCount: 0)
    )))
    // 3. Stream text deltas as the model generates
    for try await token in tokens {
        await channel.send(.response(action: .appendText(token)))
    }
}

13:33 - Honor the developer's intent or throw

// Honor the developer's intention where possible

// The developer set sampling: .greedy, but our service only takes temperature
if request.generationOptions.sampling?.kind == .greedy {
    serviceRequest.temperature = 0
}

// Otherwise, throw an error

// The token budget is too small to satisfy the schema
if let schema = request.schema,
   let budget = request.generationOptions.maximumResponseTokens,
   budget < minimumTokens(for: schema) {
    throw LanguageModelError.unsupportedCapability(
        .init(
            capability: .guidedGeneration,
            debugDescription: "Token budget too small to satisfy this schema."
        )
    )
}

13:57 - Built-in errors that any model can throw

// Built-in errors that any model can throw

public enum LanguageModelError: LocalizedError, CustomDebugStringConvertible {
    // Transcript grew past the model's context window. Trim entries and retry.
    case contextSizeExceeded(     )
    // Too many requests in a short window. Space them out or reduce load.
    case rateLimited(     )
    // Model declined to answer. Fall back to a message of your choosing.
    case refusal(     )
    // Safety guardrails tripped on the prompt or the response.
    case guardrailViolation(     )
    // Model lacks a feature you used, such as guided generation or tools.
    case unsupportedCapability(     )
    // Prompt contains content the model can't process (bad files, unknown formats).
    case unsupportedTranscriptContent(     )
    // A generation guide (e.g., a regex pattern) isn't supported by this model.
    case unsupportedGenerationGuide(     )
    // Prompt asked for output in a language or locale the model doesn't support.
    case unsupportedLanguageOrLocale(     )
    // Request timed out before the model produced a response.
    case timeout(     )
}

14:14 - Handle errors from your model executor

// Custom errors

public enum MyModelError: Error, LocalizedError {
    // User hit monthly token limit. Prompt upgrade or wait for reset.
    case exceededSubscriptionTierLimit
    // Model variant isn't enabled on this account.
    case modelNotProvisioned
    // Billing or policy review locked this account.
    case accountSuspended

    public var errorDescription: String? {
        switch self {
        case .exceededSubscriptionTierLimit:
            String(localized: "Your plan limit has been reached.")
        // ...
        }
    }
}

16:08 - Attach custom metadata to responses

// Attach service-specific performance metadata

let elapsed = Date().timeIntervalSince(startTime)
let tokensPerSecond = Double(tokenCount) / elapsed
let timeToFirstToken = firstTokenTime?.timeIntervalSince(startTime) ?? 0

await channel.send(.metadataUpdate([
    "tokensPerSecond": tokensPerSecond,
    "timeToFirstToken": timeToFirstToken
]))

17:05 - Define and use custom Transcript segments

// Define a custom segment
public struct AudioSegment: Transcript.CustomSegment {
    public var id: String
    public var content: URL
}

// Pass it in a prompt
let recording = AudioSegment(id: UUID().uuidString, content: URL(filePath: "/path/to/recording.m4a"))
let response = try await session.respond {
    "Where was Frank Lloyd Wright's original architecture school located?"
    recording
}

// Emit a custom segment from the executor
for try await event in stream {
    switch event {
    case .audioFileGenerated(let file):
        await channel.send(.response(action: .updateCustomSegment(
            AudioSegment(id: file.id, content: file.url)
        )))
    }
}

18:09 - Implement server-side tools in your model

// Configure server-side tools
public struct MyLanguageModel: LanguageModel {
    public struct ServerTool: Sendable {
        public static let webSearch: ServerTool = ...
    }
    public init(serverTools: [ServerTool] = []) { }
}

// Surface tool results through the channel
let client = MyServerClient(serverTools: model.serverTools)
let response = try await client.send(prompt: .init(request))
for try await chunk in response {
    switch chunk {
    case .webSearch(let webSearch):
        await channel.send(.response(action: .updateCustomSegment(
            WebSearchSegment(url: webSearch.url, content: webSearch.html)
        )))
    case .textDelta(let textDelta):
        await channel.send(.response(action: .appendText(
            textDelta.text, tokenCount: textDelta.tokenCount
        )))
    }
}

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

章节

资源

相关视频

WWDC26