深入探索 Core AI 模型编写与优化

深入探索适用于 Apple 芯片的自定模型部署流程，同时充分发挥全新 Core AI 框架的优势。了解使用自定 Metal 内核编写模型的超实用技巧，以及平台感知压缩策略。全新的 Core AI 调试器可提供深度内在分析；还有 AI 辅助的工作流程引导你逐步完善，从最初的概念构思到优化后的设备端执行，全称助你一臂之力。

章节

资源

相关视频

WWDC26

大家好我是Sachin Core AI团队的工程师稍后我的同事Nicole 也会加入我们今天我们很高兴向你展示 Core AI如何简化流程让你的模型在Apple Silicon上高效运行从基础知识到更高级的方法

正如你在《Meet Core AI》讲座中所看到的 Core AI是一套完整的技术涵盖模型部署的完整生命周期从模型优化和转换到调试和集成到你的App

在本次演讲中我们将深入了解Core AI的Python生态系统你将了解Core AI提供的各种库和工具帮助你在Apple Silicon上部署模型

你还将了解Core AI Debugger 它可以成为你工作流程的重要组成部分帮助你理解并调试关键问题让我们开始吧

这是我们的议程我将首先介绍 Core AI模型仓库以及Core AI Skills 帮助你快速入门的强大工具然后我将展示基本的转换和验证流程 Core AI基于你已熟悉的 Python和PyTorch工作流程如果你用过Core ML 很多内容会让你倍感亲切

接下来我将介绍模型优化并展示如何做出正确的选择以适应你的使用场景和目标平台

为了帮助你深入了解模型 Nicole将向你介绍 Core AI Debugger 最后我将介绍关键方法使Core AI能够在模型创作和转换过程中实现深度定制好的让我们从模型和Skills开始

Core AI生态系统的核心是coreai-models仓库它包含一个Swift Package 用于在App中运行LLM 但其核心是一个即用型开源模型仓库包含生成式架构如前沿的大语言模型

我们提供了针对各种使用场景和限制条件设计的示例以及可用于将自己的模型接入Core AI的组件最后同样重要的是 Core AI Models附带一套Agent Skills 你可以将这些Skills 安装到你喜欢的编程助手中从第一天起就能像专家一样使用Core AI Core AI Skills与你协作将你的高层次想法转化为清晰的下游任务部署方案它们可能会向你确认你感兴趣的模型目标硬件系列以及应用的限制条件这些需求决定了你所需的Core AI功能从PyTorch模型代码的任何修改到转换优化和运行模型 AI Skills让你的编程Agent 获得最佳实践以及我们工程师的领域知识这让你能像专业人士一样使用Core AI 甚至借助编程助手更深入地理解它

事实上本次演讲中你将看到的大部分代码都是与积极运用这些Skills的 Agent共同开发的现在让我们深入了解如何用Python在Core AI中转换和运行模型

Core AI Python库主要是Core AI PyTorch Extensions 是进入该生态系统的入口安装很简单执行pip install coreai-torch 这将安装Core AI 包以及在其基础上构建的 coreai-torch库

你将PyTorch导出的程序传给coreai-torch 它会直接转换为 Core AI模型它支持高级功能让你定制Core AI程序以精确适配你的使用场景例如你可以将多个模型组合成单个Artifact 为特定操作注册自定义Lowering 并将Metal 4内核直接内联到转换后的模型中最后你可以将模型专化为优化后的Asset 并完全在Python中原生运行于Apple Silicon

这就是我刚才描述的流水线现在让我们看看实际操作

我将带你了解一个简单示例这是一个神经网络两个线性层加relu激活函数标准PyTorch

然后我运行torch.export 传入模型和example_input 得到exported_program 这个exported_program 是起点用于Core AI转换它捕获完整的计算图包括权重操作和形状以coreai-torch可处理的格式

现在看Core AI这边

Core AI的TorchConverter 接受我的导出程序连同输入输出名称将其转换为core_ai_program 如果你用过CoreML Tools 这会让你感到熟悉

转换后的模型经过优化并保存为aimodel Asset 这是一种可在Apple Silicon上运行的本地格式

有了专化的Asset 我可以从程序中加载函数直接在Python中进行推理你还可以传入专化选项来自定义此过程实际运行推理时你只需提供一个字典将输入名称映射到对应的numpy张量

就这样整个工作流程完成了转换优化和执行全部在Python中完成现在来谈谈如何缩小模型使用Core AI的优化库为展示Core AI的优化功能我将以Segment Anything Model SAM3作为示例

SAM3是一个拥有8.5亿参数的模型用于执行基于提示词的图像分割在优化模型之前关键是要从高层次了解其内部结构 SAM3有三个主要部分一个处理图像的图像编码器一个处理用户Prompt 的文本编码器这两个组件合计占模型参数的96% 因此正确处理它们至关重要为了完整呈现一个封装了DEtection TRansformer 的Detector模块结合Mask Decoder 生成最终输出即分割掩码

如你所见 SAM3执行的是一个复杂的端到端任务这正是开发者越来越希望在设备上执行的使用场景

为此我将使用Core AI的优化库coreai-opt Coreai-opt支持配置驱动的模型压缩你描述要压缩哪些内容以及保留哪些内容它支持多种优化方案你可以从中选择例如针对macOS和iOS 采用不同的优化方式

它还支持int4 int8 FP4 以及FP8权重压缩具有灵活的粒度

最后 coreai-opt包含量化API 你可以使用少量校准数据或在更大数据集上执行量化感知训练

这是我之前展示的简单流水线

现在我增加一个步骤在转换之前我使用压缩配置通过coreai-opt运行模型或者使用其中一个便捷的预设这会生成一个较小的模型仍然经过相同的导出流水线让我们在SAM3上试试看看效果如何

我首先为SAM3创建导出封装这个封装定义了torch export 捕获所用的接口即模型的完整计算图

这是来自幻灯片的转换流水线封装成可复用的Helper 有几个有趣的点值得注意

首先它在PyTorch exported_program中运行分解使用Core AI的自定义表这确保了Core AI支持的高级语义如Attention 在图中得以保留

其次它还支持对程序进行类型转换使用coreai-opt的Helper 转换为16位浮点数

完整转换需要几分钟所以我预先计算了基准Asset

我在这里加载基准的 32位转换模型并运行它

如你所见它超过了3GB 运行时默认专化会启动对模型进行专化和运行

这是我的基准在这张图像中我请求对所有花朵进行分割掩码基于默认阈值所有花朵都被成功检测到在设备上运行这是我压缩后需要保留的效果

现在来看压缩 coreai-opt附带预设配置 presets.w4只需一行代码即可实现4位逐通道对称量化

我将ExecutionMode设置为EAGER 这对权重压缩非常有效对于激活值我会使用GRAPH模式

然后使用配置初始化 Coreai-opt的Quantizer 传入示例输入并完成最终处理模型随即被压缩

和之前一样我加载模型并在设备上运行

模型现在大约430MB

看看结果其中一朵被遮挡的花不再被检测到

我对每一层都应用了同等激进的压缩很可能不是每一层都能同等良好地处理这种压缩问题是哪些层导致了这个问题这类问题仅从输出结果很难诊断我需要深入查看模型内部让我把它交给Nicole 向你展示如何操作谢谢 Sachin！

我很高兴向你介绍 Core AI Debugger 我们已经了解了如何创建和优化Core AI模型但如果你需要更深入了解你的模型及其行为可以使用Core AI Debugger Core AI Debugger是一个全新的独立应用可以帮助你在Apple平台上检查模型

使用Debugger 你可以可视化模型的结构以易于理解的图形格式呈现在特定硬件上执行模型获得真实的运行时结果并验证推理正确性与参考运行对比全部在一处完成我很高兴向你展示 Core AI Debugger的实际效果并找出SAM3模型量化后发生了什么我先打开原始模型

点击Inspect开始操作

模型打开后我可以看到Debugger工作区左侧是导航器包含模型中操作的结构化列表

这些操作按PyTorch模块分组这对像SAM3这样的大型模型尤为强大让你以熟悉的方式导航你的模型

在导航器中选择一个 PyTorch模块比如Detector Decoder 将高亮显示所有对应节点在工作区顶部的结构查看器中此视图以图形方式展示你的模型清晰呈现操作连接关系执行顺序和数据依赖关系

底部的源代码查看器让我始终与模型的原始Python代码保持关联精确到具体代码行

最后通过选择一个操作我可以了解更多信息

并打开右侧的检查器在这里我可以找到描述信息以及操作输入输出的更多详细信息

这些视图结合在一起让你流畅地切换图形结构源代码以及执行细节之间大幅降低调试SAM3等复杂模型的认知负担除静态分析外 Debugger还支持运行时分析了解你的模型在设备上实际如何执行这对于追踪量化导致问题的位置尤为有帮助要运行模型我点击工作区顶部的Device 在Scheme设置中从目标列表中选择我的Mac 然后指定我要提供给模型的输入从像素值开始

然后是input_IDs

以及attention_mask

最后点击Run

SAM3正在进行专化以在我的设备上运行准备好后结构查看器已更新向我展示模型与在我的Mac上运行完全一致我现在可以点击任意操作直接在检查器中查看其输出张量无需修改任何内容回到当前问题我首先要验证最终的检测掩码所以我将滚动到模型末尾

并选择最后一个操作

在检查器中我点击张量预览仔细查看掩码我能看到花朵但和笔记本中一样有一朵缺失了

现在我想了解这些结果与原始PyTorch运行的对比情况我将返回笔记本使用新的save intermediates API 该API执行PyTorch模型并在每个操作处捕获中间张量值我想将量化结果与Sachin之前展示的基准对比所以我传入int4模型以及原始SAM3

让它运行

现在中间结果已保存我将返回Debugger 对比结果我首先点击工作区顶部的对比图标初始化新的对比会话左侧是我之前指定的现有配置右侧我可以选择另一种配置进行对比例如不同的Target 或Compute Unit 在这里我点击Target 并从Intermediates文件加载参考运行

我使用刚才导出的文件开始对比

导航器现在填充了操作对每对结合了专化模型的操作和PyTorch模型的操作

这些对称为同步点即专化模型的输出预期与原始PyTorch结果相匹配的位置 Debugger自动识别模型中的这些点使对比过程变得简单

每个同步点配有一个指标表明两个输出的相似程度使得找到差异所在变得很简单默认指标是峰值信噪比即PSNR 但可以更改选择最适合你模型的相似度指标对于SAM3 我继续使用PSNR

相似度指标的值也可以从右侧的状态指示器快速获取或从图形本身获取绿色节点表示相似的张量红色节点表示存在显著差异

滚动浏览操作时我看到几个黄色同步点表明模型的某些部分已有中等程度的偏差与预期结果不符我将按相似度排序并调查差异最大的同步点

当我点击导航器中的同步点时源代码查看器更新显示该操作的PyTorch模块层级例如这个操作来自Detector Decoder

我将使用向上箭头键逐一导航低PSNR同步点看是否出现规律

我注意到绝大多数低PSNR同步点实际上都来自Detector Decoder 这告诉我之前应用的量化方案对检测结果造成了轻微损坏我们之前发现 Detector模块仅占模型参数的4% 因此压缩它并没有带来太多收益所以我回到Jupyter笔记本尝试修改量化方案跳过Detector

新方案应用后我重新导出模型

验证更改是否有效

太好了我可以看到我们再次达到了基准质量所有花朵都被检测到而模型的大小只有之前的一小部分 Core AI Debugger将数小时的手动张量对比转化为可视化诊断我从检测缺失开始在几分钟内就得出了修订后的量化方案除今天展示的内容之外 Core AI Debugger还能够解决越来越复杂的问题它让你深入了解模型的行为在将模型带到Apple平台时增强你的信心现在回到Sachin

谢谢 Nicole！现在让我们更进一步到目前为止我一直在将模型作为单一的端到端单元进行转换对于很多模型这种方式完全有效但它并不总是足够的取决于你的使用场景尤其是你的约束条件这正是Core AI真正让你深入探索的地方具体来说我现在将深入 PyTorch源代码本身它定义了从输入到输出的计算图高级模型创作意味着深入这个计算图内部真正调整它在硬件上的运行方式举个简单例子考虑这一系列操作你可以将这些操作分组并融合成一个单一操作这将多个步骤替换为图中的单个内核调度 Core AI已预装了快速内核以及处理Scaled Dot Product Attention 等重型操作的基元这在Transformer中十分常见你可以找到如何利用这些操作的示例在coreai-models仓库中但如果你处于前沿想要更多定制我们还支持自定义Metal 4内核

回到我的流水线以下是自定义Metal内核带来的变化我为coreai-torch 添加了第二个输入即用Metal Shading Language 即MSL编写的内核源代码转换器同时接受我的PyTorch模型和自定义内核并将它们捆绑成单个Asset MSL直接嵌入其中随模型一起分发让我向你展示代码中的样子首先我为示例定义一个PyTorch参考标准的Sigmoid Linear Unit即SiLU 这是生成式Transformer模型中常用的激活函数这是torch.export 在追踪时看到的内容在其下方我用MSL实现实际的Metal内核这是一个简单的逐元素内核每个元素一个线程直接在GPU上计算融合激活仅凭这两个部分我现在可以注册一个Core AI TorchMetalKernel 为其提供Metal源代码 PyTorch参考以及输入和输出名称在这里输入和输出名称分别是"x"和"y" 你可以看到这些名称在上面的MSL内核中使用所以你编写Metal代码编写PyTorch参考 Core AI将它们绑定在一起在模型中使用时就像调用其他Python函数一样传入输入指定线程网格完成有一点需要注意我将结果形状传入自定义内核的每次实例化在PyTorch源代码中这让Core AI能够内置计算从输入形状推导内核输出形状当你的模型具有动态形状输入时

使用TorchConverter进行转换时我向转换器注册自定义内核然后像之前一样添加导出程序 Metal源代码直接嵌入到Asset中形成单一Artifact 内核随模型一起传递

有关如何为Core AI 编写高效Metal内核的更多详情以及在SAM3模型中观看优化内核的实际效果请参阅 "Optimize custom machine learning operations with Metal tensors"演讲到目前为止我展示了如何将图中的多个操作融合成一个但对于更高级的优化尤其是针对iOS 你需要更进一步重写以特定目标为导向的整个模型我们将这个过程称为模型重创作回到我们简单的操作序列重创作通常涉及替换计算图的许多方面这可能意味着使用不同的操作新颖的张量布局甚至修改模型的接口本质上这是一种完全不同的源代码实现

更深入地说这种创作涉及什么？一个例子是在PyTorch代码中使用预定义模式告知Core AI关于特定概念的信息这让框架能够将这些语义映射到运行时的优化实现一个例子是Key-Value缓存的原地更新在大语言模型中广泛使用另一种使用的机制尤其针对iOS 是使用静态张量形状通道优先张量布局和卷积操作模式这些让Core AI能够利用强大的底层基元满足你的设备端约束当你以这种方式设计新颖的PyTorch实现时进行严格测试至关重要包括模块级别和模型级别这确保各个构建块以及整个模型按预期工作这种测试可以采用单元测试或集成测试的形式为了帮助你入门 Core AI Models 仓库包含多个示例此类可复用组件以及跨不同模型的最佳实践 Core AI Skills还让你的编程助手从第一天起就能编写针对Apple Silicon优化的PyTorch代码让我们继续使用SAM3 我不直接转换现有模型而是创作一个专为目标定制的新PyTorch实现我做的最大改变是在Core AI模型中设置三个独立函数而非一个 Coreai-torch提供了实现这一点的API Image Encode处理图像 Text Encode处理Prompt Detect封装最终的后处理生成输出这种拆分方式让我能够以不同的频率运行每个部分例如我可能只处理一次Prompt 并在应用中将其用于多种图像它还为每个函数提供了清晰的接口让我可以独立压缩和创作每个函数让我们在实践中看看这是图像编码器Transformer的注意力模块针对iOS上的低功耗执行重新编写

我没有使用标准线性层而是使用卷积投影这是让Core AI利用底层硬件基元的模式之一在正确的计算单元上文本编码器采用类似的处理方式较小的解码器基本保持不变它占用的计算量很小因此重创作的收益很小

我将重创作的模型构建为三个独立模块 ImageEncoder

TextEncoder 以及Detector 如前所述这种分离让我能够独特地使用模型的不同方面

在压缩方面我对两个编码器应用带逐通道缩放的 4位调色板量化有一个可用的预设但我在这里使用低级别表示展示API用法这种基于查找表的压缩非常适合iOS上的低功耗运行

和之前一样我构建KMeansPalettizer 类似于Quantizer 传入模型和配置然后进行准备和最终处理还要注意我将输入图像大小从1008像素改为336 以便在iPhone上运行

Detector保持未压缩通过之前的练习我知道它对压缩敏感

然后我对每个模型运行torch export 所有模型都转换为半精度

以下是汇聚的地方单个TorchConverter 三个导出程序各有其入口点名称

首先是image_encode 然后是text_encode 最后是detect

保存后我得到一个模型Asset

其中包含三个可调用的函数

现在让我们加载并运行预先计算的Asset

首先我看到所有花朵都按预期被分割

这就是三函数拆分带来的回报

我将Prompt换成了"butterfly" 只重新运行了文本编码器和检测器

结果第二次推理即使在预热后也快了76% 这体现了重创作的优势以下是你今天可以做的事情使用Core AI的Python库转换你的PyTorch模型使用coreai-opt进行优化当需要了解内部情况时使用Debugger 在coreai-models的示例基础上构建将Core AI Skills接入你喜欢的AI智能体像专家一样使用这个新框架期待看到你带到平台上的各种模型谢谢！

3:27 - Define and export a PyTorch model

import torch
import torch.nn as nn

# Define a simple model
class MLP(nn.Module):
    def __init__(self):
        super().__init__()
        self.fc1 = nn.Linear(256, 512)
        self.fc2 = nn.Linear(512, 10)

    def forward(self, x):
        return self.fc2(torch.relu(self.fc1(x)))

# Export with torch.export
model = MLP().eval()
example_input = (torch.randn(1, 256),)
exported_program = torch.export.export(model, example_input)

4:02 - Convert, optimize and run inference with Core AI

import coreai
import coreai_torch
from coreai.runtime import NDArray

# Convert to Core AI
converter = coreai_torch.TorchConverter()
converter.add_exported_program(
    exported_program,
    input_names=["features"], output_names=["logits"])
core_ai_program = converter.to_coreai()

# Optimize and save to .aimodel
core_ai_program.optimize()
asset = core_ai_program.save_asset("mlp.aimodel")

# Run inference
specialized_model = await AIModel.load("mlp.aimodel")
specialized_function = specialized_model.load_function("main")
result = await specialized_function({"features": NDArray(example[0].numpy())})

21:12 - Define a SiLU Metal kernel with PyTorch reference

import torch
from coreai_torch.dsl import TorchMetalKernel, MetalParameter

def silu_torch(x):
    return x * torch.sigmoid(x)

SILU_MSL = """
float val = float(x[gid]);
float sig = 1.0f / (1.0f + exp(-val));
y[gid] = TYPE(val * sig);
"""

silu_kernel = TorchMetalKernel(
    name="fused_silu",
    input_names=["x"],
    result_names=["y"],
    src=SILU_MSL,
    torch_defn=silu_torch,
    metal_params=[MetalParameter("gid", "uint", "thread_position_in_grid")],
    template_dtypes={"x": "TYPE"},
)

22:09 - Use a custom Metal kernel and convert with TorchConverter

class MyModel(torch.nn.Module):
    def __init__(self):
        super().__init__()
        self.linear = torch.nn.Linear(256, 256)

    def forward(self, x):
        h = self.linear(x)
        n = h.numel()
        return silu_kernel(
            h,
            threads_per_grid_size=(n, 1, 1),
            threads_per_thread_group=(min(n, 256), 1, 1),
            result_shapes=[h.shape],
        )

exported_program = torch.export.export(MyModel(), (torch.randn(1, 256),))

converter = coreai_torch.TorchConverter()
converter.register_custom_kernels([silu_kernel])
converter.add_exported_program(exported_program,
                               input_names=["x"], output_names=["y"])
deployable = converter.to_coreai()  # MSL integrated into asset

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

深入探索 Core AI 模型编写与优化

章节

资源

相关视频

WWDC26