利用 Metal 加快机器学习

更多视频

利用 Metal 加快机器学习

了解如何利用 Metal Performance Shaders Graph 中的新功能来加快你的机器学习 Transformer 模型。我们还将介绍如何提升自己模型的计算带宽和质量，并利用全新的 MPSGraph 视图直观呈现模型。

章节
- 0:00 - Introduction
- 2:07 - Transformer support
- 13:41 - Fast Fourier transforms
- 16:42 - MPS Graph viewer
资源
相关视频

WWDC24
- 在 Apple 平台上探索机器学习
WWDC23
- 为 Metal App 优化机器学习
WWDC22
- 利用 Metal 为机器学习加速
WWDC21
- 使用 Metal Performance Shaders Graph 加快机器学习速度
下载

大家好我叫 Kamal Ramamoorthy 是 GPU, Graphics and Display 团队的软件工程师在这个视频中我将和我的同事 Sam 为你演示如何借助 Metal 为机器学习模型加速训练是在 Apple 平台上部署模型的第一步第二步是在设备上为部署准备模型最后就可以将模型整合到你的应用程序中这就是我在本视频中将重点介绍的内容如果你使用 Core ML 来部署模型那么 MPSGraph 会使用 Metal 为 GPU 加速要了解 Core ML 的更多信息请观看“在 Apple 平台上探索机器学习”视频你可能还需要观看 “利用 Core ML 在设备端部署机器学习和 AI 模型”视频你也可以利用 PyTorch、TensorFlow 和 JAX 等框架来训练模型请观看“使用 Apple 芯片 GPU 训练 ML 模型”视频了解更多内容所有这些框架都基于 Metal Performance Shaders Graph 构建这是一个使用 Metal 构建和运行通用计算图表的框架 MPSGraph 提供了对 GPU 同步和内存的低级别控制所以在某些情况下你可能需要直接使用 MPSGraph 例如如果你的应用程序使用 Metal 那么你可以使用 MPSGraph 来安排 ML 任务和其他 GPU 工作的执行顺序你也可以共享低级别 Metal 资源如缓冲区如果你刚刚开始使用 Metal 为机器学习加速请观看往年 WWDC 上的视频在本视频中我和 Sam 将探讨三个主题首先是 MPS 和 MPS Graph 的改进功能很多改进功能都旨在提升转换器模型的效率所以我会以这些模型为例其次可为基于 FFT 的 ML 模型加速的新功能最后 Sam 将向大家介绍 MPSGraph Viewer 这个工具让你能够直观查看 ML 模型我们先来了解一下专注于提高转换器模型性能的新功能转换器是语言模型中常用的工具用于翻译、预测和生成文本输入是一系列标记比如“The quick brown” 这个短句是包含 3 个标记的输入语言模型通过预测下一个标记“fox”来进行响应这个新句子被不断地反馈回模型中以生成新标记
MPS 和 MPSGraph 新增功能可帮助你改进转换器模型这些改进功能分为三类首先是计算性能的提升其次是内存带宽的节省最后是转换器模型的质量改进首先我将介绍计算性能的提升
基于转换器的模型由多层转换器模块组成我们来深入了解一下转换器模块的内部结构组成部分包括多头注意力、归一化以及前馈模块多头注意力模块是计算最密集的模块这个模块可计算大量多维矩阵乘法属于计算密集型运算输入矩阵通过矩阵乘法层进行投影生成一个查询矩阵 Q 键矩阵 K 和值矩阵 V 这些矩阵随后被输入到缩放点积注意力模块中这就是转换器模型的核心所在
有两种方式可以优化注意力模块的性能如果你查看注意力模块的内部结构会发现它是由几个运算组成的
MPSGraph 现在有一个运算它将把这一系列运算合并到一个内核中执行起来更加高效
要使用这个运算请对 MPSGraph 对象调用 scaledDotProductAttention 方法这个方法接受查询张量、键张量和值张量作为参数
使用融合的 SDPA 运算应该能帮助你提升转换器模型的性能我们再来看多头注意力模块这样我可以向你展示利用这些张量来提高计算性能的其他机会在这里你可以看到查询投影、键投影和值投影针对第一个标记的工作方式矩阵乘法运算将投影查询、键和值的嵌入矢量
要生成下一个输出标记我们必须将之前生成的所有标记输入到矩阵乘法中这会导致重新计算之前迭代中已经计算过的键 (K) 和值 (V) 投影
这个开销会随着序列长度的增长而增加要缓解这个问题可以在这些投影生成时进行缓存以便在未来迭代中重复使用你要做的第一件事是创建 K 张量和 V 张量来存储缓存的 K 值和 V 值这些张量称为 KV 缓存在第一次迭代中计算第一个标记的 K 值和 V 值并将它们插入到 KV 缓存中
现在你可以重复使用缓存的值以便在第二次迭代中只需计算第二个标记的 K 值和 V 值即可这将矩阵-矩阵乘法简化为矩阵-矢量乘法
通过为每次迭代创建新的张量你可以将 K 投影和 V 投影附加到 KV 缓存的末尾但这会占用大量内存相反你也可以使用切片更新运算就地更新现有的张量
然后使用切片运算仅提取 KV 缓存中已计算过的部分
让我们来看看如何用代码来完成这一过程
首先创建一个表示缓存的占位符这个张量的维度取决于模型的具体细节在这个示例中我将只关注缓存的键部分不过值部分的工作原理相同为了能够就地更新 KV 缓存你需要创建一个变量这个变量代表缓存的当前状态与常规图表运算的结果不同的是你可以稍后更新这个变量以引用另一个值
你需要将每个标记的键投影插入到缓存中你可以对 MPSGraph 对象使用 sliceUpdateDataTensor 方法来执行这一操作开始数组和结束数组表示要放置新值的位置在本示例中新值会被附加到缓存有效部分的末尾这个示例中的步长是一致的
现在你可以将更新的缓存赋值回原始变量 MPSGraph 会进行优化以就地更新缓存分配最后你可以使用切片运算仅提取 KV 缓存中已计算过的部分这一部分是从缓存开头到最新插入的键投影
然后你可以将更新后的键缓存传递给 SDPA 运算
当你完成这些计算改进后内存带宽便成为新的瓶颈
存储大型语言模型权重所需的内存可能达到数十千兆字节的量级这些权重通常使用 16 位浮点数来表示然而 MPS 支持将这些权重量化为 8 位整数从而将内存占用减半
作为今年的新增功能 MPS 还支持一种 4 位整数格式这样你可以进一步减小权重的大小 MPS 支持用多种方法将权重映射到这些量化格式上
这是一个示例张量其中的元素分布在数轴上对于 8 位量化有 256 个可能的量化点沿数轴线性分布对于 4 位量化存在 16 个点在量化过程中点将调整为最接近的量化值量化缩放系数可以使用右侧的公式确定这会产生微小的误差但最终我们能节省 2 倍或 4 倍的内存空间和带宽对 MPSGraph 对象使用 dequantize 方法可反量化这些值
另一种量化技术使用查找表当你的权重聚集在数轴的不同区域时这种技术非常有用利用仿射量化量化值是均匀分布的但输入值却不是这会导致大多数量化数位闲置因为大多数输入值都会聚集在少数几个量化点周围通过使用查找表你可以更有效地利用量化数位使用这项技术你可以根据数据的分发设置选择自己的量化点你将这些量化值存储在查找表中然后将每个权重分配给表中的 4 位或 8 位索引这样可以大大提高灵活性只是在查找表中查找值时会牺牲一小部分性能
使用 dequantize 方法将这些量化值转换回 32 位浮点值只需将量化权重传递给 32 位查找表即可然后可以像往常一样重复使用反量化张量例如将这些张量用作矩阵乘法的输入事实上在这种情况下 MPSGraph 性能还会更进一步
如果你的图表包含对权重的反量化运算并且这一运算发生在矩阵乘法之前
则 MPSGraph 会将这两个运算替换为单个量化矩阵乘法运算这种运算会在需要时即时反量化权重而不是存储反量化权重的临时副本
量化可以节省内存和内存带宽但同时也可能引入数值误差现在我来演示提升转换器模型质量的两种方法
当你量化权重时每个权重都会映射到较低精度的值你还可以选择一个缩放系数以及一个偏移值以便在反量化时应用于量化值但是对所有权重应用单个缩放系数和偏移值将会限制重构值的准确度相反你可以单独量化元素块每个块都有自己的缩放系数和偏移值这样你就可以为每个块更精准地匹配缩放系数和偏移值
执行这个操作的代码与前面的示例类似只有一点不同你要为每个块传入包含缩放系数和零点值的张量而不是传入单个缩放系数和零点值
以上就是量化内容下面我将为大家介绍另一种方式可以使用适配器来提高转换器模型的质量
适配器是小型层你可以将它们插入到仅包含少数运算和参数的模型中在微调模型时仅会更新适配器内部的参数这可用于让预先训练的基础模型适应新任务也可用于补偿由量化引入的误差你可以使用 MPSGraph 可调用对象将适配器添加到你的模型中
它的工作原理是每个适配器都是单独的 MPSGraph 可从主图中进行调用首先通过为每个适配器指定唯一的名称从基础图表中插入对适配器的调用为了在代码中实现这一点需要对输出的形状和类型进行定义这些输出由对适配器的调用生成然后对主 MPSGraph 对象使用 call 方法将调用添加到适配器这时你可以提供可调用对象的名称、输入和输出类型
接下来为每个适配器创建 MPSGraph 在本例中我将创建一个占位符将“输入”表示为未排序的张量然后将“输入”张量乘以 2 来创建“输出”张量
最后将每个适配器的图表编译为图表可执行文件这些图表的编译方式与其他 MPS 图表一样首先通过提供确切的形状来定义图表的输入类型然后调用图表对象的 compile 方法提供 Metal 设备、输入类型和 outputTensor
现在你已从主图表中添加了对适配器的调用并为每个适配器编译了图表可执行文件最后需要做的是将适配器名称映射到主图表中的实际图表可执行文件使用 GraphCompilationDescriptor 为你的网络编译主 MPSGraph 时操作就完成了首先创建一个字典将每个适配器名称映射到图表可执行文件并在描述符上设置字典然后只需在编译主图表时提供编译描述符以上就是设置适配器的全部步骤总结一下使用适配器和可调用对象可定制模型以执行新任务并提升质量因为你可以使用它们来微调你的模型输出下面我来为大家介绍一下今年 MPS 和 MPSGraph 中的 “傅里叶转换”的新功能快速傅里叶转换简称 FFT 可将信号或图像等数据从时间域或空间域转换到频率域在处理音频的机器学习模型中比如语音转文本模型以及从单个音轨中分离不同音频源的模型 FFT 是常见的预处理步骤 FFT 也可用于加速某些卷积层并且在很多图像处理和科学计算应用程序中也可加以利用举例来说要从音频信号中提取文本首先需要对输入波形进行短时傅里叶转换 (STFT) 然后通过转换器模型分析频谱以提取文本我已经介绍了如何使用 MPSGraph 在 GPU 上高效执行 ML 模型但你也可以利用 MPSGraph 对快速傅里叶转换的支持将整个管道转移到 GPU 上进行处理第一步是实现短时傅里叶转换这可通过将输入波形分成多个较短的视图或窗口来实现这些视图或窗口可能会彼此重叠每个窗口实际上是一个独立的信号为了减少频谱泄漏每个窗口都需要乘以一个窗口函数最后你可以使用常规的批量一维 FFT 运算来计算每个窗口的 STFT 为了将波形分成多个较短的窗口你可以创建步长视图首先设置窗口视图的形状在这个示例中窗口的宽度将是 512 个元素接下来为每个维度设置步长这个示例使用的值为 256 这意味着在第二维度中每跨一步就表示在底层一维数组中跳过 256 个元素最后的批次维度设置为 1 但你可以使用更大的批次大小
最后你可以通过对输入张量调用 arrayView 方法来创建步长视图最棒的是通过为输入数组的内存添加别名视图运算即可执行无需进行任何拷贝从而节省内存和 GPU 时间
现在你可以计算所有窗口的 FFT 首先为步长视图数据创建占位符你需要将数据从步长视图 NDArray 中加载出来然后在运行图表时再提供这一数据接下来乘以窗口函数这通常是 Hann 窗或 Gaussian 窗例如你可以使用 MPSGraphConstant 张量最后你可以创建 FFTTensor 运算以上就是“快速傅里叶转换” 的相关内容接下来有请 Sam 来为我们演示如果你希望深入了解 MPSGraph 结构体 Sam 将为你带来一些好消息感谢 Kamal 大家好我叫 Sam Colbran 也是来自 GPU, Graphics and Display 团队的软件工程师你或许还不知道 Metal 包含了 Xcode 和 Instruments 中的高级工具可帮助你充分利用 Apple GPU 强大的功能触手可及 Metal 管道以及在设备端运行的 AI 模型会变得更大、更复杂不过虽然你可以借助 Xcode 中的依赖项查看器直观查看 Metal 管道但以前无法直观查看 MPSGraph 今天我很高兴为大家介绍 Xcode 16 中 Metal 工具的新成员 MPSGraph Viewer 这是一款全新的工具专为机器学习和 AI 而设计现在你可以直接在 Xcode 中打开 MPSGraph 软件包并直观查看你的运算是如何关联的在开始演示之前我们先回顾一下如何实际创建 MPSGraph 软件包无论你是直接使用 MPSGraph 还是一直在其他框架中开发 ML 模型如果你已直接使用 MPSGraph 创建了模型首先将你的图表编译到 MPSGraph 可执行文件中然后使用可执行文件上的 serialize API 创建软件包
作为今年的新增功能你也可以直接从 CoreML 软件包创建 MPSGraph 可执行文件和以前一样接下来你可以将可执行文件序列化为 MPSGraph 软件包
或者如果你以前使用另一个框架比如可以导出为 ONNX 格式的框架你可以使用 mpsgraphtool 来转换模型让我们一起来看一个示例
我正在使用 Mistral 的模型其中有 70 亿个参数这个模型已转换为 CoreML 格式具体内容可观看今年的 “将机器学习和 AI 模型移植到 Apple 芯片”视频现在可以使用命令行访问 mpsgraphtool 打开常用的“终端” 然后使用 convert 参数运行 mpsgraphtool
就是这样新创建的 mpsgraph 软件包即可开始使用现在使用新的 MPSGraph Viewer 可以轻松查看我已经在 Xcode 16 中打开了转换后的 Mistral 软件包让我来介绍一下屏幕上的内容从左上角开始这些是编译选项默认情况下查看器按原样显示图表也就是说它没有针对任何特定设备进行优化因此无论你使用什么设备运算显示应该是一样的
下方是运算导航器这里会显示图表中使用的所有运算的列表中间就是图表最后屏幕的右边是运算检查器我们稍后还会再谈到这一项
在当前级别没办法看清图表所以我要放大一些
现在我可以看到高层级结构继续放大细节会更多现在我可以滚动查看每个运算的所有输入和输出以及它们之间是如何关联的这样能够直观查看并理解图表的结构
Mistral 现在是一个转换器模型正如 Kamal 之前解释的那样它们由转换器模块层叠而成让我们试着找出它们首先我会查找新的缩放点积注意力运算符这个运算符在每个转换器模块中应该属于多头注意力的一部分我可以执行搜索但我已经在左侧的运算导航器中看到了有 32 个运算符我将展开这个群组并点按第一个群组这样可跳转到图表中的相应部分
这个运算看起来有 5 个输入你应该已经认识查询、键和值 Kamal 之前介绍过
我将画面缩小一些可以更好地查看整个转换器模块
跟随这些关联我能看到组成查询、键和值的模块即便是在这个级别我也可以看到键和值中的变量我将放大以显示键中的变量由于这个模型是从带有状态的 CoreML 中导出的它使用 KV 缓存并利用 MPS 中的新 assign-to-variable 和 read-from-variable 运算正如 Kamal 展示的那样计算性能会得到提升现在为了简化图表查看器可能会在多个位置显示一些运算和变量就像这个例子一样我在右侧的检查器中选择了变量之后可以看到变量首次创建的位置以及所有使用变量的位置
好了刚才介绍的是一个转换器模块其余的呢正如检查器一样实际上我可以在运算导航器中同时选择多个运算就像这样高层级结构就很清晰了可以看到各个层全都一遍又一遍地重复出现非常美观现在我们来谈谈常量你可能已经注意到直接显示在图表内部的绿色预览部分但我还能在左侧的常量导航器标签页中找到它们并按大小排序我会选择最大的常量然后连按两下打开常量查看器你可以在这里检查经过训练的权重并深入了解模型学到的内容这样有助于你发现机会优化模型以实现更出色的设备端整合但请记住查看器按原样显示图表它没有针对任何特定设备进行优化
实际上执行的图表可能会有所不同例如通过将运算整合到单个 Metal 内核中 MPSGraph 可以自动优化运算可以使用查看器直观查看运算我来演示一下具体方法我打开了一个 MPSGraph 软件包其中包含 ResNet50 和之前一样我可以放大屏幕以查看所有的运算和常量但现在让我们来看看我的设备图表是什么样的
在左上方的编译选项中我将选择我的设备
现在放大来看我可以看到运算已被分组到这些 Metal 拼接着色器区域展开可以看到内部由于这些运算融合到了一个经过优化的 Metal 着色器中从内部来看没有内存开销因而可显著提高性能总的来说了解图表最终如何在硬件上执行对于真正理解图表运行时的性能特性非常有用以上就是 MPSGraph Viewer 新增功能的全部内容现在我们来总结一下今天的内容正如 Kamal 先前所说借助 Metal 可以为机器学习加速你可以使用 Metal Performance Shaders Graph 这个工具已经集成到热门框架的内部比如 CoreML 为你带来 Apple 芯片的出色性能今年转换器的新功能可以帮助你改进计算包括结合 KV 缓存的新的缩放点积注意力运算具有量化功能的内存带宽还能通过适配器和可调用对象提升质量借助新的步长 NDArray API 在 MPSGraph 中可以更快地进行傅里叶转换计算最后新的 MPSGraph Viewer 有助于理解和深入洞察模型在 Apple 芯片上是如何执行的请务必查看 MPSGraph 文档和示例代码当然模型集成是最后一个板块如果你还没有学习过请务必观看相关精彩视频了解更多关于训练和部署的知识感谢观看祝你在 WWDC 度过美妙的时光
正在查找特定内容？在上方输入一个主题，就能直接跳转到相应的精彩内容。

提交你查询的内容时出现错误。请检查互联网连接，然后再试一次。

章节

资源

相关视频

WWDC24

WWDC23

WWDC22

WWDC21