创建由 Apple Silicon 提供支持的图像处理 app

创建由 Apple Silicon 提供支持的图像处理 app

了解如何针对 Apple Silicon 芯片优化图像处理 app。探索如何利用 Metal 渲染命令编码器、分块着色、统一内存架构和无内存附件。我们将展示如何利用 Apple 独特的分块式延迟渲染架构来创建低内存占用的节能 app，并带您了解将基于计算的 app 从独立 GPU 迁移到 Apple Silicon 芯片的最佳实践。

资源
相关视频

WWDC20
- 为 Apple 芯片 Mac 优化 Metal 性能
- 使用Metal技术驾驭Apple图形处理器
下载

♪ （创建Apple Silicon 驱动的图像处理应用程序）大家好欢迎来到WWDC 我叫尤金·日德科夫来自GPU软件部门我将同Mac系统架构部门的哈什·帕提尔一起向大家介绍如何基于在 Apple silicon上运行的Metal 创建图形处理应用程序首先我会重点介绍最佳实践和所得经验这些归功于开发者在过去一年中参与优化在M1上运行的图像处理应用然后哈什会逐步指导对Apple silicon 如何重新设计图像处理管道从而获得最佳效果让我们开始吧首先简单看一下 Apple系统芯片架构及其优点很多图像处理和视频编辑应用程序是基于独立GPU设计的因此必须考虑到独立GPU 和Apple GPU的区别首先所有Apple芯片使用的是统一内存架构所有组件例如CPU GPU 神经和媒体引擎都使用统一的内存接口访问同一个系统内存其次我们的GPU使用区块延迟渲染器也就是TBDR TBDR有两个主要阶段在区块阶段将渲染面分成块状然后独立处理几何图形渲染阶段全部像素由各区块处理为使Apple silicon 架构达到最高效率图像处理应用程序应当使用统一内存避免管道存在任何副本并且利用区块内存和本地图像块搭建TBDR架构想了解关于Apple TBDR 如何低耗能工作以及如何定位着色器核心的更多信息请观看去年的课程现在来看下如何针对 Apple silicon 优化图像处理计算负载去年我们与很多优秀开发者密切合作研究图像管道过渡我们选择了六个最有价值的技巧来分享首先要讨论的是如何避免不必要的内存副本或位块传输鉴于目前处理的画面分辨率高达8K 这一点非常重要然后我们要着重介绍使用渲染管道和纹理代替缓冲区计算的优点以及如何应用于您自己的图像处理管道当渲染和纹理通道开启运行后我们将展示合理装载/存储和无内存附件的重要性这将有助于最大限度地利用区块内存然后我们将介绍对Uber-shaders 使用动态控制流的最佳方法以及如何利用较小数据类型例如短整型和半整型从而提高性能和效率最后是关于最佳通量纹理格式的重要建议好了先从最有价值的技巧开始避免Apple silicon 出现不必要位块传输绝大多数图像处理应用程序是基于独立GPU设计的通过独立GPU 可以获取独立的系统内存和视频内存为了使帧图像可见或常驻GPU 需要显式复制而且需要复制两次从而上传数据供GPU处理并传回假设我们解码一个8K视频对其进行处理并保存到硬盘这种情况下是CPU线程进行解码需要将解码后的框架复制到GPU VRAM上这里是GPU时间线使用了所有的效果和过滤器让我们进行下一步然后再回来看我们要把结果存储在硬盘上对吗？因此必须将处理过的框架传回系统内存和实际解码框架这些被称为复制或位块传输空白而先进的图像处理应用需要深度管道化和其他技术来填充好消息是利用Apple GPU 不再需要进行这部分工作因为内存是共享的 CPU和GPU均可直接访问添加一行简单的代码来检测是否在统一内存系统上运行避免产生不必要的副本从而节省您的内存和时间这是首要进行的一步现在我们的统一内存架构中位块传输已经被移除了移除后完全避免了复制空白因此可以立即开始进程这也给CPU和GPU管道化减少了麻烦请确保实现统一的内存路径没有产生额外副本如果在独立GPU上保留位块传输副本会损耗系统内存带宽降低GPU实际运行效率增加潜在调度消耗而且我们不需要再进行独立的VRAM图像分配了 GPU帧捕获可以找出大的位块传输请认真检查确保只复制了必需的内容下面介绍如何利用Apple GPU TBDR架构处理图像大多数图像处理应用程序通过调度一系列计算内核对图像缓冲区进行操作当在默认的串行模式下调度一个计算内核 Metal可以确保所有后续调用都能访问全部内存写入可以使所有着色器内核保持内存一致性所以下一次调用开始时每个内存写入都对其他内核可见这也意味着内存流量可能会很高整个图像都必须被读取写入通过M1芯片 Apple GPU 可在MacOS上调用区块与常规计算不同的是仅利用区块同步点进行区块存储一些过滤器比如卷积不能被映射到区块模式但很多其他的过滤器可以推迟系统内存刷新直到编码器结束点能提高效率可以使GPU执行更多工作不受系统内存带宽限制进一步来说很多独立像素的操作不需要访问相邻像素因此也不需要区块同步点可以很好映射到片段函数运行片段函数不需要区块同步除非编码器边界要求同步或者区块内核在片段内核之后要求串行调度我们现在了解了Apple GPU 可启用片段功能和区块内核从而实现更有效的图像处理再来看看如何使用它把调用缓冲区常规计算转换为纹理渲染命令编码器下面就靠经验法则了没有像素依赖性的独立像素应该使用片段函数来实现任何有线程组范围操作的过滤器都应该用区块着色实现因为需要在一个区块内访问相邻像素分散-聚集和卷积过滤器不能被映射到区块模式因为需要随机访问因此应该包含在计算调度中渲染命令编码器具备独特的AppleGPU功能对纹理和渲染目标进行无损带宽压缩能非常显著地节省带宽尤其是对于图像处理管道那么来看看如何使用它提到无损压缩说明不应该做什么更容易一些首先已经压缩的纹理格式不利于无损压缩其次有三个特殊的纹理标志不能用于压缩所以要确保您没有无意中设置上述纹理标志第三线性纹理或MTLBuffer支持的纹理也不允许出现对于非私有纹理还需要进行一些特殊操作确保GPU访问内容的优化从而保持最快路径 GPU帧捕获摘要窗格出现了无损压缩警告并说明了程序退出原因在本例中设置了像素格式视图标记在很多情况下开发者可能会无意中设置标记如果需要swizzle组件或 sRGB转换不要设置像素格式视图好了现在渲染和纹理路径开始运行了现在我们来确认一下是否正确使用了区块存储 TBDR的区块存储理念比如加载/存储和无存储附件对桌面环境来说是全新的理念所以需要确保使用正确现在开始加载/存储我们已经知道整个渲染目标被分割成区块对每个单元批量进行加载/存储保证在内存层次结构中选择了最优路径在渲染通道起始处执行设置GPU初始化区块内存的模式并在通道末尾返回并写入GPU所需附件这里的关键问题是要避免载入不需要的信息如果要覆盖整个图像或者资源是临时资源将加载动作设置为Load ActionDontCare 利用渲染解码器不再需要清除输出或临时数据不再像以前一样需要专门计算通道或调用fillBuffer 设置 LoadActionClear 可以有效地设置清除值对于存储也是如此请确保只存储以后需要的数据例如主要附件不要储存任何临时数据除了明确的加载和存储 AppleGPU还通过无记忆附件节省了内存占用通过无记忆储存模式我们就可以明确地定义一个附件仅区块内存分配的功能意味着将只在编码器运行周期内为每一个区块持续储存数据这可以大大减少内存占用率尤其是对于6K/8K图像其中每一帧都需要数百兆让我们看看这一切如何在编码器中完成首先创建纹理描述符然后创建输出纹理再创建一个临时纹理请注意我已经把它标记为无记忆因为我们不希望这里有任何存储然后我们创建渲染通道首先描述附件然后设定负载/存储我们并不关心加载的输出因为它被完全覆盖了我们需要存储它我们不加载临时纹理而是需要将其清除也不需要将其存储最后用描述符创建渲染通道完成了我们正在使用统一内存将图像处理管道转到渲染命令编码器并合理利用了区块存储现在来讲一下uber着色器 uber着色器或uber核心应用非常广泛可以让开发者的工作更轻松主机代码设置控制结构着色器只是循环一系列if/else语句比如启用色调映射时或者输入HDR或SDR格式时这种方法被称为uber着色器可以很好地减少管道状态对象总数然而也有不足之处主要是增加了寄存器压力从而适应更复杂的控制流使用更多的寄存器能限制着色器运行的最大占用率我们考虑将控制结构传入简单内核可以使用结构中的标志来控制这里有两个特性假如输入HDR格式并启用色调映射看上去不错对吗那么GPU上发生了什么呢由于不能在编译时推断出任何事情我们必须假设有两个通道 HDR和非HDR 在标记处结合色调映射也是如此对其进行评估然后根据输入标记选择输入或输出这里的难点是寄存器每个控制流路径都需要寄存器这是uber着色器表现不佳的地方正如您所知道的内核使用的寄存器决定着色器可以运行的最大占用率这是因为寄存器文件被着色器核心上所有模拟路径共享如果只运行需要的程序将提高模拟组并发性和GPU利用率我们来看下如何解决这个问题 Metal API提供了正确方法即 function_constants 将两个控制参数设为 function_constants 然后对代码进行相应的修改这是修改后的内核代码主机端也必须更新以便在管道创建时提供函数常量值另一个好方法是通过在着色器中使用16位类型从而减少寄存器压力 AppleGPU有原生16位支持因此当使用较小数据类型时着色器所需寄存器更少利用率更高半整型和短整型所需能耗更少可达到更高的峰值速率因此尽可能使用半整型和短整型代替浮点型和整数型数据类型通常可自由转换在这个例子中考虑到内核使用的是线程组中的thread_position 进行计算我们使用的是无符号整数型但Metal所支持的最大线程组可以轻松适用无符号短整型然而 threadgroup_position_in_grid 可能需要更大的数据类型但对于图像处理中使用的网格大小高达8K或16K 无符号短整型也足够了如果使用16位类型代替所产生的代码使用较少的寄存器有可能增加占用率现在我来演示一下如何查看寄存器的所有细节 Xcode13的GPU框架调试器将高级管道状态对象视图用于渲染区块并计算PSO 可通过寄存器来检查详细的管道统计数据并对所有着色器进行微调介绍完寄存器下面介绍纹理格式首先要注意不同的像素格式可能有不同的采样率由于硬件生成和通道数量的不同更宽的浮点类型可能会降低点采样率特别是浮点格式例如RGBA32F 在对过滤值进行采样时将比FP16变量慢较小数据类型减少内存存储带宽以及缓存占用空间因此我们还是建议尽可能使用最小数据类型但在这个例子中还要考虑纹理存储图像处理中的3D LUTs 实际很常见我们所使用的大多数应用程序都使用浮点RGBA 针对启用双线性滤波的3D LUT应用阶段请考虑您的应用程序能否改用半整型并且有足够精确度如果是这种情况立即切换到FP16 以获得峰值采样率如果整型数精确度不够定点无符号短码提供了良好的统一取值范围因此用单位比例编码LUT 并向着色器提供LUT范围可以很好地获得峰值采样率并保证足够的数值精确度好我们刚刚讲完了应该如何利用AppleGPU架构使图像处理管道尽可能高效地运行想要立刻开始实践有请哈什谢谢尤金现在让我们根据迄今为止学到的所有最佳实践重新设计一个基于Apple silicon 架构的图像处理管道具体来说我们将为AppleGPU 定制视频处理管道的图像处理阶段实时图像处理对GPU计算和内存带宽要求非常高我们首先来了解通常如何设计对Apple silicon 如何进行优化我们不打算在本节中讨论视频编辑工作流程的细节这部分请参考两年前的会议课程我们只讨论将图像处理的计算部分过渡到渲染路径在开始之前先快速看一下图像处理阶段在典型视频处理管道中的位置以ProRes编码的输入文件为例首先从磁盘或外部存储器中读取ProRes编码帧然后在CPU上对该帧进行解码图像处理阶段在GPU上执行这个解码帧并渲染出最终的输出帧最后显示这个输出帧此外还可以对最终渲染帧进行编码用于传输接下来让我们来看看图像处理管道的组成图像处理开始时首先将源图像RGB和alpha的不同通道解包到独立的缓冲区我们将在图像处理管道中处理每一个通道可同时处理也可单独处理接下来可能需要转换色彩空间以便在所需的色彩管理环境中操作然后用3D LUT进行色彩校正然后应用空间-时间降噪卷积模糊和其他效果最后将单独处理的通道打包在一起用于最终输出选择的这些步骤有什么共同点呢它们都是点式过滤器只在单个像素上操作没有像素间的依赖性这些都能很好地映射到碎片着色器空间和卷积式操作需要访问大半径像素而我们也有分散的读写访问模式都很适合计算内核我们稍后会用到这些知识现在来看看这些操作是如何执行的应用程序将应用于图像的效果链表示为一个过滤器图每个过滤器都是它自己的内核处理前一阶段的输入并为下一阶段产生输出这里的每个箭头都表示一个缓冲区被写入/被一个阶段输出并作为下一个阶段的输入被读取由于内存是有限的应用程序通常需要一个拓扑排序来线性化图形这是为了使中间资源总数尽可能少同时也避免了竞争条件该例子中的这个过滤器简易图需要两个中间缓冲器才能在没有竞争条件的情况下运行并产生最终输出这里的线性化图形也大致代表GPU命令缓冲区的编码让我们深入了解一下为什么这个过滤图占用这么多设备内存带宽每个过滤操作都必须将整个图像从设备内存加载到寄存器中并将结果写回设备内存而这是相当大的内存流量让我们根据例子中的图像处理图估算一下4K帧图像处理的内存占用情况一个4K解码帧本身对于浮点16精确度来说需要67兆的内存对于浮点32精确度来说需要135兆的内存而专业工作流绝对需要浮点32精确度通过这个图像处理图以浮点32精确度处理一个4K帧我们谈论的是设备内存超过两千兆的读写流量另外写入持有中间输出的缓冲区也会冲击缓冲区的层次结构并对芯片上的其他区块产生影响常规的计算内核不会从芯片上的隐含区块内存受益内核可以明确分配线程组范围的内存这些由芯片区块内存支持然而该区块内存在计算编码器内的调用是不持续的相比之下区块内存在一个渲染命令编码器内的不同绘制通道中是持续的让我们看看如何重新设计这个有代表性的图像处理管道从而更有效地利用区块内存通过以下三个步骤来解决这个问题首先将计算通道改为渲染通道所有中间输出缓冲区改为纹理然后将没有像素间依赖的每个像素操作编码为渲染命令编码器中的片段着色器调用确保考虑到所有的中间结果并设置适当的加载/存储动作最后讨论比点式过滤器更复杂的情况下该如何操作第一步是使用单独的MTLR渲染命令编码器来编码合格的着色器在这个滤镜图中解包色彩空间转换 LUT 和色彩校正过滤器都是每个像素的点过滤器可以将其转换为片段着色器并使用渲染命令编码器对其进行编码同样地混合器和打包着色器在这个图像处理管道的末端也可以转换为片段着色器并使用另一个MTL 渲染命令编码器进行编码然后可以在各自的渲染通道中调用这些着色器当创建渲染通道时色彩附件上的所有资源在该渲染通道中都可隐性区块化一个片段着色器只能更新与区块中片段位置相关的图像块数据同一渲染通道中的下一个着色器可以直接从区块内存中获取前一个着色器的输出在下一节我们将展示如何构建映射到这些过滤器的片段着色器我们还将介绍需要定义和使用哪些结构以便从这些片段着色器中访问底层区块内存最后介绍一个片段着色器在区块存储器中产生的输出如何能被同一渲染命令编码器中下一个片段着色器直接从区块存储器中消耗这是编码过程中必须做的事情在这里我将输出图像作为纹理附在渲染通道描述符的色彩附件0上并把持有中间结果的纹理附在渲染通道描述符的色彩附件1中它们都会被区块化请按照之前我们讲过的设置适当的加载/存储属性现在在片段着色器中建立一个结构来访问这些纹理在接下来的例子中将展示如何在片段着色器中使用这个结构只需使用之前定义的结构即可在片段着色器中访问输出和中间纹理这些纹理是在与该片段相对应的适当的区块内存位置进行的由解包着色器产生的输出被色彩空间转换着色器消耗作为输入使用的是我们之前定义的相同结构这个片段着色器可以自行处理更新输出和中间纹理这将再次更新相应的区块内存位置要在同一个渲染编码器通道中对所有其他的片段着色器需要按照同样的步骤操作接下来让我们设想一下经过这些更改这个操作序列的样式正如您所看到的现在经过解压色彩空间转换 3D LUT应用和色彩校正等步骤都在区块内存上执行使用一个渲染通道中间没有设备内存通道在渲染过程结束时非无记忆的渲染目标会存入设备内存然后就可以运行下一类过滤器了让我们再来谈谈具有散点收集访问模式的过滤器代表这种过滤器的内核可以直接操作设备内存中的数据卷积滤波器非常适合用于操作计算内核中的区块在这里可通过标明一个线程组范围的内存来表示使用区块内存的意图现在把像素块和所有必要的光晕像素存入区块存储器这取决于过滤器的半径并直接在区块内存上执行卷积操作请记住计算编码器内的计算调用中区块内存是不持续的因此在执行Filter1之后必须将区块内存中的内容转入设备内存这样Filter2就可以消耗Filter1的输出那么做出所有这些更改后结局如何呢通过例子中重组的图像处理图以浮点32精确度处理一个4K帧情况如下带宽从2.16千兆降到仅值810兆的加载和存储这就使设备内存的流量减少了62% 不需要两个中间设备缓冲区每帧就可节省270兆的内存最终减少了高速缓存的占用这是因为该渲染通道中所有片段着色器都是直接在区块内存上操作的 Apple silicon的一个重要特性就是它的统一内存架构下面一个例子介绍如何利用这个统一内存架构在Apple silicon上的不同块之间进行互动我们将以GPU渲染的最终视频帧的HEVC编码作为一个案例研究这种编码是使用 Apple silicon上的专用硬件媒体引擎完成的由GPU渲染的最终输出帧可以直接被媒体引擎消耗不产生额外的内存复制下面的章节里我们将通过一个例子说明如何以最有效的方式为GPU产生的最终输出帧建立HEVC编码管道为此首先将利用 CoreVideo API 来创建一个由IOSurfaces 支持的像素缓冲池然后利用Metal API 在刚才创建的缓冲池中将最终帧渲染成 IOSurfaces支持的 Metal纹理最后将这些像素缓冲区直接分配给媒体引擎进行编码而不需要对GPU产生的输出帧进行任何额外的复制从而充分利用统一内存架构我将分步展示如何做到这一点并涵盖需要的所有结构来实现这个工作流首先创建一个由IOSurface支持的 CV像素缓冲池以所支持的像素格式这里将使用双平面色度超采样像素格式进行HEVC编码现在从CV像素缓冲池得到一个缓冲将其传递给具有正确平面索引的 Metal纹理缓存得到CVMetal纹理索引由于使用的是双平面像素格式需要对双平面像素缓冲器的两个平面都执行这一步骤从CVMetal纹理索引对象得到底层Metal纹理对亮度和色度平面都执行这一步骤请记住这些Metal纹理是由同样的 IOSurfaces支持的也会支持 CVPixelBuffer平面使用Metal API渲染成与亮度和色度平面相对应的纹理这也将更新支持这些Metal纹理的 IOSurface 我们强烈建议在GPU上对色度平面进行色度子采样作为图像处理管道中的着色器通道需要注意的是 CVPixelBuffer 和刚刚渲染的Metal纹理都是由系统内存中相同的底层IOSurface 副本支持的现在可以将这个 CVPixelBuffer 直接发送到媒体引擎进行编码可以看到由于统一内存架构可以在GPU和媒体引擎块之间无缝移动数据没有内存拷贝最后记得在每一帧之后释放CVPixelBuffer和 CVMetalTexture参考释放CVPixelBuffer 可使这个缓冲区在未来帧中循环使用总结一下我们建议再次进行以下操作利用统一内存架构在适当情况下使用MTL渲染命令解码器而不是计算在单个渲染命令编码器中合并所有合格的渲染通道设置适当的加载/存储动作对瞬时资源使用无记忆附件适当使用区块着色对其他API使用缓冲池实现零拷贝感谢您参加今天的课程请继续观看接下来的 2021年度WWDC课程视频
♪

let textureDescriptor = MTLTextureDescriptor.texture2DDescriptor(…)
let outputTexture = device.makeTexture(descriptor: textureDescriptor)

textureDescriptor.storageMode = .memoryless
let tempTexture = device.makeTexture(descriptor: textureDescriptor) 

let renderPassDesc = MTLRenderPassDescriptor()
renderPassDesc.colorAttachments[0].texture      = outputTexture
renderPassDesc.colorAttachments[0].loadAction   = .dontCare
renderPassDesc.colorAttachments[0].storeAction  = .store
renderPassDesc.colorAttachments[1].texture      = tempTexture
renderPassDesc.colorAttachments[1].loadAction   = .clear
renderPassDesc.colorAttachments[1].storeAction  = .dontCare

let renderPass = commandBuffer.makeRenderCommandEncoder(descriptor: renderPassDesc)

12:25 - Uber-shaders impact on registers

fragment float4 processPixel(const constant ParamsStr* cs [[ buffer(0) ]])
{
  if (cs->inputIsHDR) {
    // do HDR stuff
  } else {
    // do non-HDR stuff
  }
  if (cs->tonemapEnabled) {
    // tone map
  }
}

13:32 - Function constants for Uber-shaders

constant bool featureAEnabled[[function_constant(0)]];
constant bool featureBEnabled[[function_constant(1)]];

fragment float4 processPixel(...)
{
  if (featureAEnabled) {
    // do A stuff
  } else {
    // do not-A stuff
  }
  if (featureBEnabled) {
    // do B stuff
  }
}

23:02 - Image processing filter graph

typedef struct
{
    float4 OPTexture        [[ color(0) ]];
    float4 IntermediateTex  [[ color(1) ]];
} FragmentIO;

fragment FragmentIO Unpack(RasterizerData in [[ stage_in ]],
                           texture2d<float, access::sample> srcImageTexture [[texture(0)]])
{
    FragmentIO out;
    
    //...
                         
    // Run necessary per-pixel operations
    out.OPTexture       = // assign computed value;
    out.IntermediateTex = // assign computed value;
    return out;
}

fragment FragmentIO CSC(RasterizerData in [[ stage_in ]], FragmentIO Input)
{
    FragmentIO out;

    //...    
    
    out.IntermediateTex = // assign computed value;
    return out;
}

正在查找特定内容？在上方输入一个主题，就能直接跳转到相应的精彩内容。

提交你查询的内容时出现错误。请检查互联网连接，然后再试一次。

资源

相关视频

WWDC20