了解 Core AI

了解 Core AI

认识一下 Core AI，这是 Apple 新推出的设备端 AI 模型部署框架。一起浏览这个包罗万象的生态系统，看看如何借助 Python 资源库进行模型的转换、创建和优化，如何利用一种 Swift API 实现简单的即插即用推断，并构建高级用例来满足严格的延迟和内存要求等等。探索全新的 Core AI 模型存储库，其中包含适用于热门架构的现成示例。了解 Xcode 的深度集成 (包括模型的提前编译) 如何简化工作流程，从而帮助你交付更智能、更灵敏的 App 体验。

章节
- 0:00 - 简介
- 0:33 - 什么是 Core AI
- 4:57 - 模型转换
- 6:16 - App 集成
- 10:48 - 使用 Instruments 进行性能分析
- 11:15 - 性能优化
- 14:13 - 其他功能
- 15:34 - 模型特化
- 20:07 - 后续步骤
资源
相关视频

WWDC26
大家好我是Ben 我是Core AI团队的工程师今天我将介绍Core AI 并展示如何使用它为你的App添加智能功能 AI的发展速度前所未有此前看似遥不可及的新模型和新能力如今不断涌现 Core AI能帮你把握这一势头在此基础上进行构建 Core AI标志着设备端 AI执行的下一次演进遍及Apple各平台它从底层为现代工作负载而构建并提供你所需的高性能推理以构建先进的AI功能 Core AI是驱动设备端 Apple 智能的推理框架现在它可供你使用将同等能力带给你App自己的智能 Core AI不仅仅是一个框架它是一套完整的技术涵盖模型部署的全生命周期从模型优化与转换到调试与集成至你的App 一切均为支持快速迭代循环而设计这正是构建优质AI功能所需 Core AI让你充分发挥 Apple Silicon的潜能在CPU、GPU和神经网络引擎上提供极速推理该框架配备现代Swift API 这是一个富有表现力的API 能满足你App对性能的需求同时不牺牲内存安全性
更广泛的技术集自然融入常见的ML工程工作流复用熟悉的Python 和PyTorch基础用于模型编写、优化和转换 Core AI还支持广泛的自定义从精细的推理管理和模型专化到自定义GPU内核所有这些都紧密集成到全新的开发者工具链包括预编译、专用的 Core AI Instruments 以及强大的可视化调试器可将张量值直接追溯回原始Python源代码 Core AI旨在根据你的需求和可用算力进行扩展无论你是想让App识别实时会议中的发言者通过小型说话人分割模型还是让用户将摄像头对准任何物体并提问通过更大的视觉语言模型即时获得答案或让他们将复杂的多步骤任务交给由700亿参数LLM 驱动的强大智能体助手处理 Core AI都能满足你的需求所有这些都在Apple设备上本地运行无需服务器无需按Token付费在本次讲座中我将首先展示如何将模型转换为Core AI格式然后介绍如何将转换后的模型集成到App中接着我将深入探讨如何优化模型和App的性能最后我将重点介绍 Core AI的一些附加功能及其相关工具你可能会觉得有用让我们开始吧每一款优秀的App体验都始于一个想法也许你想构建一些感觉有点神奇的东西一些能智能响应的东西或者能做出原本需要人工或硬编码规则才能做出的决策机器学习和AI 让这类体验成为可能一旦你有了想法下一步是寻找或构建能够驱动它的模型就像你的想法本身会随时间演进一样找到合适的模型也是一个迭代过程你会不断尝试对照需求进行评估并改进 Core AI旨在支持这种迭代使其尽可能快速且顺畅为了使这一点更加具体我将实现一个有趣的游戏创意这是一个让你玩双人贪吃蛇游戏的App 其中一条蛇由通过 Core AI运行的AI模型驱动该App将遵循传统的贪吃蛇规则蛇可以通过吃食物来成长并且必须避免撞到墙壁自身和另一条蛇最后存活的蛇获胜在每个时间步 AI模型将看到一组特征描述当前棋盘状态这些特征将被累积成为输入到模型的完整游戏历史然后预测最佳移动方向虽然贪吃蛇是一个简单的游戏用于创建此体验的工具和API 是相同的基础可以扩展到更大更复杂的用例我很好奇对于这个项目用PyTorch能做到什么在AI编码助手的一点帮助下我很快就勾勒出了一个简单的贪吃蛇动作预测模型为了训练它我使用了朴素模拟来生成训练数据只需运行游戏并记录状态和动作目的是从简单开始让模型在我的App中运行所以下一步是获取这个PyTorch模型并将其转换为Core AI 我将使用新的Core AI Torch Python包轻松执行转换
首先我将加载SnakeTransformer 模块的已训练检查点并准备一个示例输入然后我将使用torch.export 导出torch程序同时确保使用 dynamic_shapes参数以指定特征的序列长度是动态的这样它就不会以静态示例长度5进行追踪同时我将对转换后的程序运行分解使用Core AI的分解表接下来我将运行 Core AI的TorchConverter 指定输入和输出的名称最后将转换后的Core AI模型保存到磁盘在离开Python环境之前我还要做一件事运行测试以验证转换后的Core AI模型与我原始PyTorch模型的数值一致这可以通过Core AI框架 Python绑定轻松完成首先我将加载 PyTorch和Core AI模型然后准备一个贪吃蛇游戏的示例输入然后将相同的输入分别通过 PyTorch模块和Core AI推理函数运行最后对我的用例断言一个足够小的差值在PyTorch和Core AI输出之间现在我有了转换后的AI模型下一步是跳转到Xcode 并将模型集成到我的App中首先我将用Xcode 打开AI模型文件它会显示有关模型的信息包括模型大小操作的分布以及其他有用的元数据在Functions标签页中它还显示模型中每个唯一函数的确切函数签名在本例中模型只有一个函数它以游戏棋盘的特征作为输入并产生logits作为输出指示模型认为哪个方向最适合移动还需注意NDArray值中的问号表示该维度具有动态形状这与我以动态序列长度转换模型的方式一致现在我已在Xcode项目中包含了AI模型文件并检查了其结构下一步是使用 Core AI框架来运行模型 Core AI框架是一个全新的Swift API接口用于加载和运行Core AI模型它提供了一组逐步展开的API 使得快速启动和运行变得简单同时也具备更深层的灵活性以支持对性能要求严苛的应用此外它使用现代Swift语言特性如不可逃逸类型以提供内存安全的API 同时不牺牲性能让我们先来讨论框架中的核心类型 AIModel通过指向.aimodel文件的URL进行初始化主要用于检查和加载一个或多个推理函数 InferenceFunction是可运行的对象代表单个已加载的计算图通常情况下你的AIModel 只有一个主要的InferenceFunction 不过你可以将单个模型转换为包含多个函数 AIModel和InferenceFunction 通常是对象你将在准备App AI功能时构建它们例如这可以在 App初始化时完成 NDArray是保存你的多维输入和输出数据的类型你在InferenceFunction上使用run方法来使用这些数据运行推理最后你可以读取和处理推理的输出为了实现贪吃蛇游戏我将首先创建ModelPlayer类型在App初始化时它将用指向AI模型文件的URL进行初始化然后它将初始化AIModel 并从中加载主推理函数接下来是模型玩家做决策的逻辑它将遵循我在App中定义的SnakePlayer协议主要的协议要求是chooseAction函数它接收游戏历史记录并返回蛇应该采取的下一个动作首先要做的是创建一个NDArray 来填充输入特征对于这个推理函数 NDArray的预期结构是二维的包含float32数据其中形状的第一个维度是当前序列长度第二个是固定的隐藏维度大小然后它将把特征写入该NDArray 使用这个writeFeatures辅助函数它接收游戏和NDArray的可变视图 NDArray.MutableView类型是一种不可逃逸类型它提供对NDArray 底层存储的安全高效访问准备好输入后它将使用这些输入运行推理并提取预期的输出logits ndarray 最后一步是对输出logits进行采样以选择蛇下一步移动的方向通过将ndarray视图传入辅助函数它将读取这些值并选择具有最大对应logit 的方向 writeFeatures函数负责填充输入特征让我简要介绍这些特征包含什么
它们包含AI蛇头到所有墙壁的归一化距离到最近食物的归一化相对X和Y距离
四个元素编码当前方向到另一条蛇的归一化距离最后是对手的方向现在把这些整合在一起我将进行一次测试运行两条蛇都由AI模型驱动看看效果如何
运行后可以看到模型正在运行但是我注意到游戏随着进行变得越来越慢除了Core AI框架之外 Xcode中还有一个新Instruments 帮助你分析App中运行的Core AI模型在本例中我已使用 Instruments运行了App 我可以看到推理间隔随时间明显增大这意味着推理调用的延迟在增加这是合理的因为Transformer模型具有二次时间复杂度相对于序列长度在我们的游戏中序列长度正在增加随着模型的每次移动在这种情况下下一步是优化模型使用的性能每次输入序列增加时 Transformer模型都会重新计算一组内部Key 和Value嵌入用于序列中的每个元素一种常用策略用于提升性能在使用Transformer的这类解码循环中是缓存Key和Value 这些Key和Value 是为序列中每个元素计算的而不是在每次推理时从头重新计算所有值这可以通过Core AI 使用状态来实现
状态是模型的输入在推理期间既可读取也可原地更新通过将Key和Value缓存作为模型的状态引入我们既避免在每次推理时重新计算它们也无需将完整的游戏历史作为输入提供因为来自旧步骤的所需数据已存储在状态中因此在第一次输入之后每个后续步骤都使用缓存作为历史记录并且只获取最新棋盘状态的新特征为了实现Key/Value缓存我将回到原始的编写代码并做一些修改以添加Key和Value缓存首先我将更新torch模块添加Key和Value缓存张量作为Transformer模块中的缓冲区通过使用torch register_buffer API 这将使这些张量成为导出的torch程序中的可变缓冲区 Core AI将把它们转换为状态然后在模块的forward函数中我将添加逻辑以实际使用这些缓存这涉及从缓存中读取之前的特征Key和Value 然后将新特征计算出的 Key和Value写回缓存最后我将重新运行之前相同的代码来重新转换模型但现在在convert调用中添加state_names参数以指定新状态参数的名称现在我已经用新的函数签名重新转换了模型我将更新App代码来处理它首先我将更新ModelPlayer 以存储Key和Value缓存NDArray 这些将是传递给每次推理的状态参数我将用Transformer 的预期形状对其进行初始化在本例中我转换模型时使其期望Key和Value缓存始终是固定大小的以适应最大可能的上下文长度然后当需要运行推理时我将构建一个 MutableViews集合包含Key和Value缓存的两个视图然后将它们作为 InferenceFunction.run方法的states参数提供现在缓存将在每次推理期间被读取并原地更新现在使用更新后的模型我将重新运行App 这次我可以看到它保持了稳定的速度不再随时间推移而减慢在Instruments中追踪更新后的App时我可以确认推理延迟的增长速度慢得多在结束之前我将展示一些在制作贪吃蛇游戏时没有使用的功能但在开发你自己的App时可能会觉得有用在转换贪吃蛇游戏模型时我使用了coreai-torch包直接转换PyTorch模块这个流程简单适用于许多用例但有时你可能需要对模型编写方式有更多控制甚至可能控制模型内部操作的运行方式我们只是触及了 Core AI Python包所提供功能的表面它还支持直接使用 Core AI API编写模型针对Apple Silicon优化模型以及使用Metal 4定义自定义内核实现要了解更多关于这些高级模型编写流程请参阅讲座"Dive into Core AI model authoring and optimization" 除了调试性能之外能够调试转换后模型的数值也至关重要为此你可以使用 Core AI调试器它允许你可视化转换后的模型轻松检查中间张量值并追溯转换后模型中的操作回到引入这些操作的Python源代码还有一个方便的 Core AI调试仪表盘在你的App于Xcode中运行时显示实时Core AI活动这是发现性能问题的好地方在深入Instruments之前在贪吃蛇游戏实现中有一件事被略过了那就是模型专化的过程
当你将AI模型随App一起发布时那是模型的源表示可以在任何Apple设备上运行然而要在App中实际加载和运行模型它必须针对 App运行所在的设备进行专化当你的模型被加载时会检查它是否已经被专化并缓存专化过程对于非常大的模型可能需要相当长的时间虽然后续加载从缓存中快速完成但第一次可能是你需要提前规划的建议避免在用户交互流程中发生模型专化在用户交互流程中 Core AI可以帮助你解决这个问题首先 Core AI提供程序化访问 App的默认模型缓存你可以请求直接从中加载模型如果返回nil 则说明不存在需要进行专化你可以用此来控制功能的访问或告知用户他们可能需要等待一段时间让App准备好模型其次你可以在App中明确请求模型专化独立于加载过程你可以在下载资源后或用户选择启用某功能时执行此操作这样模型就能提前准备好还有更多可用的控制选项 SpecializationOptions有助于配置你希望模型如何针对推理进行优化使用AIModelCache你还可以删除不再需要的条目并控制条目持久化时长的策略你甚至可以在同一App组中的多个App之间共享缓存请查阅developer.apple.com上的 "Managing model specialization and caching"文章了解更多信息
无论专化何时发生它都需要时间让我们快速了解一下内部情况在专化期间模型会经历两个主要转换首先它经历一组核心编译步骤对计算进行分段规划和优化其次为所使用的计算单元生成可执行工件这些工件与生成它们的设备和OS版本相关联在这两个步骤中编译是产生大部分延迟的步骤 Core AI工具链可以帮助你减少这段时间通过允许一些编译在你的开发机器上提前进行生成模型的编译版本虽然该编译模型仍需针对特定用户设备进行专化但现在需要做的工作少得多完成速度也快得多要了解有关此选项的更多信息请查阅developer.apple.com上的 "Compiling Core AI models ahead of time"文章了解更多信息控制专化何时何地以及如何发生是帮助你优化用户体验的一种方式你可能希望优化的另一个领域是消除使用模型的紧密推理循环中的任何开销 Core AI框架有多个API可以帮助你你可以动态检查 NDArray参数的最优内存布局并使用该结构分配它们以避免在推理时进行布局转换
你还可以为框架预分配要写入的输出值以避免在推理期间分配新的输出值
你还可以使用异步值来高效地流水线执行多个推理函数对于大多数用例高层推理API 将让你达到所需的目标但当你在优化紧密的推理循环或将模型集成到复杂的计算管道时这些底层API 在你需要时随时可用无论你是刚刚入门还是深入钻研 Core AI Models代码库都是找到所需内容的好地方它收录了一系列热门模型每个模型只需一条命令即可完成转换并针对你的App优化 AI技能专注于 Core AI模型编写优化和转换
以及一个Swift包包含特定模型系列的库提供更高层的API 其中已内置了许多底层推理优化它还提供了一个API 用于创建Core AI语言模型可直接插入 Foundation Models框架让你带来自己的自定义模型和Token采样策略总结一下：Core AI适用于所有Apple Silicon 帮助你在所有Apple平台上构建前沿的AI体验它与现有的Python工具紧密集成这些工具你已经非常熟悉以及现代Swift框架用于在App中高效运行你的模型以及最先进的调试工具帮助你了解模型如何在Apple设备上运行我们迫不及待地想看到你构建的各种体验

5:08 - Convert a PyTorch model to Core AI

import torch
import coreai_torch
# Load trained snake model and sample input for tracing
pt_model = SnakeTransformer().load_checkpoint("snake.pt")
example  = torch.randn(1, 5, 16)

# Export the torch program including dynamic shape for input sequence
seq_len  = torch.export.Dim("seq_len", min=1, max=256)
exported = torch.export.export(
    pt_model, args=(example,), 
    dynamic_shapes={"features": {1: seq_len}},
)
exported = exported.run_decompositions(coreai_torch.get_decomp_table())

# Convert torch graph → Core AI graph
ai_program = coreai_torch.TorchConverter().add_exported_program(
    exported, input_names=["features"], output_names=["logits"],
).to_coreai()

# Save as a .aimodel asset the runtime can load
ai_program.save_asset("SnakeTransformer.aimodel")

5:44 - Verify converted model numerics

import torch
import numpy as np
from coreai. runtime import AIModel, NDArray
# Load models
pt_model = SnakeTransformer().load_checkpoint("snake.pt")
ai_model = await AIModel.load("SnakeTransformer.aimodel")
function = ai_model.load_function("main")
# Assemble input sample - 10 frames of 16-dim game features, shape (1, 10, 16)
features = np.array(lextract_features(game) for - in range (10)],
dtype=np.float32)[np.newaxis]
# PyTorch reference
with torch.no_grad():
	pytorch_logits = pt_model(torch.from_numpy(features)) . numpy )[0, -1]
# Core AI inference
result = await function({ "features": NDArray(data=features)} )
coreai_logits = result["logits"]. numpy()[0, -1]
# Validate
max_diff = np.max(np.abs(pytorch_logits - coreai_logits))
	assert max_diff < 0.01

7:41 - Core AI framework core types

// Core types within Core AI
import CoreAI

// Load the '.aimodel' file
let model = try await AIModel(contentsOf: modelURL)

// Load the main inference function
let mainFunction: InferenceFunction = try model.loadFunction(named: "main")!

// Construct the n-dimensional input data
let inputNDArray: NDArray = nextInput()

// Run inference
var outputs = try await mainFunction.run(inputs: ["input": inputNDArray])

guard let outputNDArray = outputs.remove("output")?.ndArray else {
  // Handle unexpected missing output
}

8:33 - Initialize ModelPlayer with AIModel

// Initialize the player by loading the AIModel and InferenceFunction
struct ModelPlayer {
  let nextActionFunction: InferenceFunction

  init(modelURL: URL) async throws {
    let model = try await AIModel(contentsOf: modelURL)
    self.nextActionFunction = try model.loadFunction(named: "main")!
  }
}

8:49 - Run inference with NDArray inputs

extension ModelPlayer: SnakePlayer {

  mutating func chooseAction(game: SnakeGame) async throws -> Direction {

    // Create an NDArray for the next input and write board features into it
    var inputFeatures = NDArray(shape: [game.stepCount, hiddenDim], scalarType: .float32)
    writeFeatures(of: game, into: inputFeatures.mutableView())

    // Run inference and extract the expected logits output NDArray
    var outputs = try await nextActionFunction.run(inputs: ["features": inputFeatures])
    guard let logits = outputs.remove("logits")?.ndArray else {
      throw ModelError.missingOutput
    }

    return predictedDirection(from: logits.view())
  }

  func writeFeatures(of game: SnakeGame, into view: consuming NDArray.MutableView<Float>) { … }
  func predictedDirection(from logits: NDArray.View<Float>) -> Direction { … }
}

10:10 - Input features for the snake model

// Features at each time step
var features = [Float]()

// Distance to wall in all directions, normalized between [0, 1]
features += [dWallUp, dWallDown, dWallLeft, dWallRight]

// Distance to nearest food, normalized between [-1, 1]
features += [dFoodX, dFoodY]

// Direction encoded as one-hot: [1,0,0,0]=up, [0,1,0,0]=down, etc.
features += dir.oneHotEncoding

// Distance to the other snake, normalized to [-1, 1]
features += [dUserX, dUserY]

// Direction of the opponent snake
features += dirU.oneHotEncoding

12:18 - Add KV cache buffers to PyTorch module

# Update torch module to include key and value caches
# Use register_buffer to later make the exported torch program treat them as mutable

class SnakeTransformerStateful(nn.Module):
    def __init__(self, ...):
        super().__init__()
        self.register_buffer(
            "k_cache", torch.zeros(N_LAYERS, 1, MAX_SEQ_LEN, D_MODEL))
        self.register_buffer(
            "v_cache", torch.zeros(N_LAYERS, 1, MAX_SEQ_LEN, D_MODEL))
        # …

12:50 - Update forward pass to read/write KV caches

# During forward pass, read/write KV caches

class SnakeTransformerStateful(nn.Module):

    def forward(self, features, position_ids):
        new_k, new_v = [], []
        for i, block in enumerate(self.blocks):
            # read previous keys/values from caches
            k_prev = self.k_cache[i]
            v_prev = self.v_cache[i]
            # ... compute q/k/v for the new token, attend over valid prefix ...
            new_k.append(k_updated)
            new_v.append(v_updated)

        # Update key/value caches
        self.k_cache.copy_(torch.stack(new_k))
        self.v_cache.copy_(torch.stack(new_v))

        return self.action_head(self.ln_final(x))

12:59 - Re-convert model with state names

# Updated coreai-torch conversion code using key/value cache states
import torch
import coreai_torch

exported = torch.export.export(
    stateful_model,
    args=(example_features, example_position_ids),
    dynamic_shapes={"position_ids": {1: seq_len}},
)
exported = exported.run_decompositions(coreai_torch.get_decomp_table())

ai_program = coreai_torch.TorchConverter().add_exported_program(
    exported,
    input_names=["features", "position_ids"],
    state_names=["keyCache", "valueCache"],
    output_names=["logits"],
).to_coreai()

ai_program.save_asset("SnakeTransformer.aimodel")

13:17 - Store KV cache NDArrays in ModelPlayer

// Add stored properties for the key and value caches
struct ModelPlayer {
    let nextActionFunction: InferenceFunction

    var keyCache: NDArray
    var valueCache: NDArray

    init(modelURL: URL) async throws {
        let model = try await AIModel(contentsOf: modelURL)
        self.nextActionFunction = try model.loadFunction(named: "main")!

        self.keyCache = NDArray(shape: [layers, maxContext, hiddenDim], scalarType: .float32)
        self.valueCache = NDArray(shape: [layers, maxContext, hiddenDim], scalarType: .float32)
    }
}

13:45 - Pass state views to inference function

extension ModelPlayer: SnakePlayer {
    mutating func chooseAction(game: SnakeGame, snakeID: Int) async throws -> Direction {
        // …

        var stateViews = InferenceFunction.MutableViews()
        stateViews.insert(&keyCache, for: "keyCache")
        stateViews.insert(&valueCache, for: "valueCache")

        // Run inference and extract the expected logits output NDArray
        var outputs = try await nextActionFunction.run(
            inputs: ["features": inputFeatures],
            states: stateViews)
        // …
    }
}

16:22 - Check model cache before loading

// Check if your model can be loaded from the cache
let cache = AIModelCache.default

guard let model = try cache.model(for: modelURL, options: .default) else {
    Task { @MainActor in
        informUser("Preparing AI features. This may take a while…")
    }
}

16:42 - Request model specialization

// Explicitly request specialization
try await AIModel.specialize(contentsOf: modelURL)

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

章节

资源

相关视频

WWDC26