利用 Metal 进行现代化渲染

返回 WWDC19

利用 Metal 进行现代化渲染

Metal 是 GPU 加速图形和计算框架，可帮助开发者打造从专业 app 到控制台风格游戏的一切内容。了解如何利用 Metal 功能来实现现代图形技术，包括延迟渲染和分块前向渲染。了解 GPU 驱动功能如何让 Metal 自行安排工作负载，从而在几乎没有 CPU 交互的情况下构建和执行完整的场景及计算工作负载。了解 GPU 系列如何帮助您更加轻松地构建适用于所有 Apple 平台的 app，并探索 Metal 如何让您的 app 和游戏在性能和功能方面更上一层楼。

资源
相关视频

WWDC21
- 探索使用 EDR 的 HDR 渲染
WWDC19
Tech Talks
- A13 仿生芯片的 Metal 增强功能
（用Metal进行现代化渲染）
大家好我是Jaap van Muijden 欢迎参加这场关于用Metal进行现代化渲染的演讲
在演讲的第一部分我会讲一些更高级的渲染技巧你如今可以在你的app中使用了
然后我的同事 Srinivas Dasari 会讲如何把你的CPU渲染循环移到更多GPU驱动的管道上
最后我们讲如何使用新的GPU家族来写跨平台的代码
无论你是从零开始或是想改善现有的 Metal app
或你有一个很棒的渲染引擎你想把它移到 Metal平台上我们会告诉你如何通过渲染技巧
最大限度地利用可用硬件来满足你的需要
我们从如今的游戏和app使用的一些渲染技巧开始讲
从基本延迟渲染开始这是最常用的渲染技巧游戏和图形app在所有平台上都能使用它我们会讨论经典的双通道设置
我们会告诉你如何在Metal上实施双通道设置以及如何针对iOS平台对此进行优化
然后我们继续讲平铺延迟它扩展了延迟渲染的照明通道如果需要复杂的照明设置的话它是个非常完美的功能
然后我们会了解前向渲染这对于Metal app来说是个很好的替换方案要求复杂的材料、抗锯齿、透明度或特殊的性能考虑
我们要讲的最后一个技巧是可见度缓冲区渲染它推迟集合逻辑一直推迟到照明通道现在在Metal 3中它的实施比以前简单多了
但在此之前先让我们从延迟渲染开始讲
延迟渲染把场景渲染分为两个通道
一个是几何通道你可以把你的整个场景渲染到过渡几何图形中或叫做GBuffer 这个缓冲区中的纹理你在写入模型或后处理管道中所需要的所有法线、反照率、粗糙度和任意一种表面或材料属性
然后在第二通道中照明通道渲染场景的光照体积并在一个累积纹理中创建最终光照场景
延迟的光照着色器将把GBuffer中的所有纹理绑定到一起从而计算对最终光照表面颜色的影响
让我们先定义这个技巧的数据流然后再讲Metal实施
在这里我们有两个渲染通道我们要在GPU上相继地运行这两个渲染通道
在我们的几何通道中我们需要写出深度深度用于执行在几何通道过程中的深度调用但它可以用于给照明通道计算像素位置和世界空间
并且我们还输出我们的GBuffer纹理在我们的例子中我们使用了法线、反照率和粗糙度纹理
然后在我们的第二通道照明通道中我们读回GBuffer纹理然后我们绘制光照体积并把它们累积到我们的输出纹理中
让我们看一下如何在Metal中构造这个数据流
要在Metal中设置渲染通道你首先要有一个渲染通道描述符
渲染通道描述符最重要的部分就是它的输出在Metal中这些是用附件定义的
每个渲染通道都可以拥有单一深度附件和多颜色附件
对于每个附件来说我们必须要定义它的纹理纹理要指向存储我们附件数据的数据
我们需要定义我们的加载动作那会告诉我们如何从纹理中加载现有数据并且存储动作就是如何把渲染结果存回纹理中当你定义好所有附件的这些属性之后你就可以创建渲染命令编码器然后你就可以最终在你的渲染通道中绘制Objection了
让我们看一下如何在Metal中创建这个从设置代码开始看
这是我们的设置功能我们要从创建渲染通道描述符开始现在我们刚开始填充所有附件我们先从深度附件开始因为我们使用深度附件来执行深度调用我们要确保在开始渲染场景之前清除它因此我们把加载动作设置为清除当然我们想存储深度用于第二通道因此我们把存储类型设置为存储
现在我们转到我们的颜色附件颜色附件我们需要一个颜色附件应用于GBuffer中每一个纹理因为所有这些纹理都将以同样的方式进行处理我们只讲一下反照率
因为我们在渲染过程中很可能会使用比如天空盒或背景因此我们非常确定我们会覆盖我们的每一个帧中的每一个像素那意味着我们并不真正关心我们的GBuffer纹理中之前的任何值因此我们可以把加载动作设为不关心
当然我们想将存储 GBuffer的结果因此我们把存储动作设为存储
现在我们可以创建照明通道描述符了我们创建另一个描述符对象然后定义附件用于累积缓冲区因为我们累积数据我们需要在开始之前清除它因此我们把加载动作设置为清除
当然我们想保存我们的最终图片因此我们的存储动作将是存储
现在让我们看一下当我们使用这些渲染通道来实际绘制我们的场景时的渲染循环我们再次从几何通道开始看我们使用我们的描述符创建渲染命令编码器然后我们开始迭代场景中的所有度量这是渲染场景的一种非常简单的方式
我的同事Srinivas 将在本场演讲的第二部分讲如何把基础的CPU渲染循环移到更多GPU驱动的管道中通过各种剔除和LOD选择来实现
好的现在我们已经编写好整个几何缓冲区抱歉整个几何通道我们要接着创建照明通道我们创建另一个渲染命令编码器现在我们开始迭代照明通道中的所有光照每个光照每个延迟光照着色器都将绑定这些来自GBuffer 的纹理从而计算它的最终光照颜色
嗯这两个通道系统在macOS 和iOS的所有平台上用起来都非常顺畅各种类型的硬件都支持这两个通道系统但我们还可以采取一些措施在iOS上进一步优化我们的实施让我们从代码中退回到我们的概览中
你可以看到在两个渲染通道之间的这个大缓冲区几何通道把它的所有数据都存储在这些GBuffer纹理中然后照明通道又把它们都带回来了如果我们在单个像素上有多个光照点我们会多次执行这种读回
通过在Metal中使用一种叫做可编程混合的技巧我们可以避免把这个过渡负荷存储到设备内存中通过利用iOS设备的平铺架构实现我们要如何利用这种技巧呢？
嗯要启动可编程混合我们要合并几何通道和照明通道并按几何和光照规则创建一个渲染编码器
因此由于iOS架构的本质在编码器的整个持续时间内附件总是处于平铺内存中
这意味着我们不仅可以写入附件中但我们实际上还会把它们读回
我们可以读回我们写入的同一个像素的值并且这就是我们想要实现的操作当我们计算照明通道中的光照时我们想检索同一个像素的GBuffer附件
让我们看看这会如何影响我们的光照着色器
在这里我们有来自照明通道的光照片段着色器你可能知道你只需要把所有你需要的纹理绑定到一起就能得到GBuffer数据然后你在所有GBuffer纹理中读取所有这些纹理从而获取所有材料和表面信息只有这样你才可以把材料和表面信息推到照明模型中从而获得最终光照颜色
现在让我们看一下如果我们使用可编程混合会怎么样
我们不绑定所有纹理而是绑定所有颜色附件
我们可以直接在照明模型中使用这些值
你可以看到我们已给GBuffer 创建了一个新的线性深度颜色附件这是因为当你使用可编程混合时你不能访问深度附件
现在我们不再绑定或取样任何纹理让我们看一下如何使用这个来进一步优化我们的内存布局
当使用可编程混合时我们不再从GBuffer纹理中写入或读取我们可以把颜色附件的存储动作设置为不关心
好的这解决了带宽问题但我们仍然有这些 Metal纹理对象占用我们设备上的空间我们需要告诉Metal 我们不再需要为GBuffer纹理提供任何物理内存了
我们通过把纹理的存储模式设为不耗内存实现我们告诉Metal我们不再对纹理实施任何存储动作了因此我们实际上不需要分配内存
通过这些步骤我们现在得到了一个iOS实施具有GBuffer所有的优点但却没有内存或带宽负担
在讲平铺延迟之前让我们总结一下几何通道和照明通道的分离使得可编程混合成为一个非常多用途的技巧它可以很好地处理复杂的几何和照明通道并且GBuffer可用于促进非常深入的后处理管道整个管道可使用这个可编程混合方法排成一行
在macOS上你仍然要处理GBuffer、内存和带宽消耗
现在让我们讲一下平铺照明方案这适用于想要渲染最大光照体积但仍想减少光照通道消耗的情况
平铺延迟渲染技巧尝试解决渲染大体积光照而导致的性能问题在经典延迟中我们独立渲染每个光照这由于重叠光照而导致了大量GBuffer消耗
平铺延迟渲染通过一个额外的计算预通道延伸了照明那就允许我们进行着色但不是按光照层级着色而是按平铺层级着色
预通道首先把我们的屏幕分成照明平铺的2D网格并给每个平铺生成一个光照列表
然后第二步就是照明然后通过使用单一光照碎片着色器这些光照用于有效地照亮平铺但光照是光照列表中的光照在我们深入实施细节之前先让我们快速了解一下如何生成这些光照列表
嗯我们首先把视椎分成这些小的子椎每个平铺一个子椎
然后使用计算着色器进一步调整子椎通过使用平铺的位置以及平铺的深度边界实现我们可以这样做因为我们已经运行了几何通道因此深度缓冲区已经填充好了
当我们调整这些子椎时我们可以测试所有视椎的光照体积并向光照列表中添加任意交集
这整个过程可以在所有平铺中并行执行非常适合计算内核
我们要如何把这个整合到我们刚才见到过的延迟管道中呢？
嗯要在我们设置这个双通道延迟之前
现在我们已经把计算通道添加到它中间了
那会为我们创建光照列表我们需要在一个光照列表缓冲区中存储这些光照列表并存储在设备内存中
再一次这个方案适用于所有平台我们只需要创建额外的计算并把光照逻辑从每个着色器一个光照移到照明着色器中的迭代循环中就像之前的渲染器一样我们现在可以利用 iOS上的硬件平铺来进一步进行优化让我们看一下这在我们的单一编码器 iOS实施中怎么样
这是我们刚才讲过的单通道方案我们需要在那儿使用这个计算但我们需要留在单渲染命令编码器中从而使用可编程混合
Metal提供一种有效的方式即使用基于平铺的硬件架构来渲染我们所光栅化的每个平铺的计算
为了iOS上的这个目的渲染命令编码器可以编码平铺着色器管道使其运行计算函数
这非常适合我们的平铺照明因为我们现在获取了照明平铺概念并把它直接映像到我们的硬件平铺上
因此现在我们的光照调用预通道可以直接在我们的硬件平铺上运行我们可以使用第二个Metal功能叫做持久线程组内存用于在平铺内存中存储所生成的光照列表以及附件
然后与附件类似我们可以把它们读回但渲染命令编码器中的所有绘制在我们的例子中是按光照绘制
我们现在移动了照明后端使其与我们的图形一致完全在平铺内存内执行
那么这在Metal中看起来是什么样的？让我们返回到设置代码中
创建平铺着色器与设置普通的渲染管道状态非常相似我们创建描述符我们设置所有的颜色附件
然后设置我们想要执行的计算函数然后创建管道状态因为我们使用了持久线程组内存我们需要在平铺中保留一点儿内存因此我们返回到渲染通道描述符然后保留足够的数据来存储我们的光照列表
现在让我们转到渲染循环看一下分派尺寸
我们的渲染循环这一次是从单一渲染命令编码器开始然后我们再一次循环场景中的所有网格
然后我们不直接进入照明通道而是首先执行平铺着色器我们设置了管道状态我们设置了一个缓冲区存储我们场景中的所有光照然后我们把线程组内存缓冲区绑定到我们的平铺内存中然后我们分派我们的平铺着色器
现在我们已经执行了平铺着色器线程组内存会保存光照列表然后我们就可以在照明绘制中使用了我们可以让每个像素都能访问它它使用了持久线程组内存的平铺光照列表现在可以非常有效率地给它的像素进行着色了
最后设置好这一切之后让我们看看这在着色器中看起来怎么样
在这里我们有两个着色器顶部那个是平铺着色器它把输出光照列表绑定到一个持久线程组内存缓冲区中
然后它会以某种方式循环所有光照并把光罩输出到持久线程组内存中
然后由第二着色器读回第二着色器是我们真实的照明着色器
它会写入它平铺内的所有可见光照并给像素着色
现在我们已经了解对平铺延迟技巧实施平铺照明技巧的所有要点让我们看一下如何使用这个原理来扩展我们的渲染器使其有效地创建一个额外的前向通道
因为我们已经在持久线程组内存中设置了光照列表我们可以使用同样的数据来促进一个有效的平铺前向通道
无论何时当我们在前向通道中对前向几何图形进行着色时我们都可以使用同一个持久线程组内存读取平铺光照列表并使用在延迟照明中所使用的同一个光照循环来非常有效率地对前向像素进行着色
这个前向通道真的增强了渲染功能并接受透明度、特效和其它复杂的着色如果只有延迟通道那通常是不可能实现的
然而延迟管道总有一些限制抗锯齿
复杂的材料表达仍然是个问题因为有过渡的GBuffer表示使用这个平铺技巧我们看到我们可以非常有效地加强前向渲染使用平铺照明技巧
让我们往回退一步只看前向通道因为除平铺照明之外它凭借自身力量成为了一个可行性方案
要创建只进行前向渲染的渲染器我们只需要移除延迟几何图形和照明通道即可
然而我们的照明剔除技巧需要那个深度来调整它的子椎
因此我们需要用深度预通道替换几何图形通道来填充这个深度缓冲区
如果你的引擎已经拥有这样一个深度预通道那这对于你来说是一个非常完美的方案
如果你有过度绘制、优化、遮挡剔除或自我混合那这个方案可以满足你的需要
然而在iOS硬件上这种通道通常是不必要的对于那些情况而言还有另一种照明方案叫做集群照明可能更适合你
这个集群方案以不同的方式创建光照列表而不需要任何深度
因为对于集群光照来说我们不会给平铺创建任何深度边界但我们只是再细分深度轴上的椎
然后我们发出一个3D光照列表贴图而不是2D光照贴图
这可能不如平铺照明中的子椎那么有效率但它将大大提高照明性能因为仅通过本地光照列表对每一个像素进行着色
使用集群剔除与平铺着色和持久线程组内存一起这将为我们提供一个非常优化的前向渲染器
我们现在已经了解了一些最流行的管道以及如何在Metal上对它们进行渲染
现在我们要了解一下可见度缓冲区渲染技巧它以一种不同方式处理GBuffer消耗从而更适合不支持硬件平铺的老硬件
让我们一直退回到延迟渲染器中我们目前所了解的大部分优化只能在iOS架构上使用
可见度缓冲区技巧尝试以另一种方式把过渡缓冲区瓶颈最小化也就是在那个缓冲区中存储绝对最小量的数据
我们不按像素存储所有表面和材料属性我们只存储原始标识符和重心坐标
这个数据不直接用于给整个场景着色但它可用于重构和插入原始几何图形然后在本地在照明着色器内运行整个材料逻辑
因为这个重构步骤消耗太大但它在平铺照明技巧中用起来效果很好因为它保证只对每个像素进行一次重构
当我们实施这个技巧时通常最大的问题就是如何创建原始索引以及如何创建重心坐标
而不需要大量额外的处理
我们现在很高兴地告诉你们在Metal 3中你现在可以在片段着色器内使用这两个新属性检索当前原始索引和当前像素的重心坐标的索引了
生成几何图形着色器现在非常简单 Metal 3使几何通道比以前更快了实施也比以前更简单了
我们现在学习了你可以在Metal中用于场景渲染的所有这些不同方案现在让我们看一个小演示演示一下其中一些渲染技巧
在这里我们有测试场景有一些非常复杂的几何图形和设置PBR材料以及一组不同的材料着色器我们可以在任意设备上使用延迟或平铺延迟或甚至是前向渲染器来渲染这个场景让我们从普通的延迟渲染器开始
延迟渲染器有两个通道我们之前看到过第一个通道现在通过这些过渡 GBuffers渲染一切现在让我们看其中一些 GBuffer纹理
在这里我们有反照率
我们有法线
我们有GBuffer的粗糙度纹理如果你有暂时的抗锯齿或更复杂的照明模型你很可能需要在GBuffer中存储更多东西
我们现在看到的场景是由第二照明通道进行照明的因此让我们进入夜间场景来更好地呈现我们的光照
现在在这个场景中要获得这样的照明效果我们需要渲染许多光照我们可以在这里看到在普通延迟中我们应该每次渲染一个光照那样效率很低并且你可以看到在不同的光照之间有许多重叠因此让我们改用平铺延迟照明
在这里我们有同一个场景渲染使用平铺延迟渲染器
我们想在这里展示的是我们所拥有的所有可能的可视化效果关于不同的平铺如何给你呈现在每一个不同的平铺中所渲染的不同的光照体积你可以看到使用这些平铺细分相对于同时照亮所有像素来说效果真的不一样
现在我们已经演示了一些你可以用于渲染场景的可能的渲染技巧接下来我的同事 Srinivas会讲如何把CPU繁重的渲染循环放到GPU驱动的管道中去
谢谢Jaap GPU驱动的管道在Metal 2中我们引入了 GPU驱动的管道由增强缓冲区和非直接命令缓冲区组成通过这些你现在可以把基于CPU的渲染操作移到GPU上来我同事Jaap刚讲了如何用Metal实施各种高级渲染技巧我要讲的是如何把整个基于CPU的渲染循环移到GPU上来这不仅会让渲染循环变得更有效率它还允许你释放CPU用于执行你可能想要执行的其它处理比如复杂的物理模拟REI 在深入讲细节之前先让我们看一下渲染循环中通常会执行哪些操作
大场景要求复杂的渲染操作通常你会执行一系列操作来有效地渲染场景你要做的第一件事就是椎剔除移除落在视椎外的对象我们只讲绘制调用接下来是遮挡剔除在这里你排除由其它较大对象所遮挡的对象通常要做的另一件事是细节层次选择根据模型到摄像机的距离从一系列的模型细节层次中进行选择那么带有所有这些操作的基于CPU的渲染循环一般看起来就像这样
从根本上说你首先会把被遮挡的绘制和遮挡测试编码到命令缓冲区中然后在GPU上的渲染通道中执行它从而为下一帧生成遮挡数据接下来你执行椎剔除从而排除视椎外的对象并做LOD选择从而为模型选择一个细节层次然后是遮挡剔除从而排除被较大对象遮挡的对象那么最后你要编码可见对象的绘制并在渲染通道中执行它从而生成场景现在这个流程用起来不错但这里有一些功能效率很低首先让我们看一下遮挡剔除要执行遮挡剔除你需要当前帧的遮挡数据但因为你不想减少当前帧中的任何同步性你通常依赖于上一帧的遮挡数据来实现你通常得到的数据分辨率较低因此它是近似数据它可能会导致虚假遮挡因此你很可能需要在游戏中采取一些纠正措施第二这里有些操作很有麻痹性比如椎剔除
在单CPU线程上它是这样的你要对每个对象执行椎剔除一个接一个现在你可以明确地把这个进程分配到多个CPU线程上但只有几个CPU线程可用并且如果你包含你想要对每个对象执行的全部操作你很可能正在做这样的事但这些操作是否很有麻痹性？如果你有更多的线程你当然可以并行处理所有场景处理场景中的所有对象但一般来说场景中有成千上万个对象因此要麻痹全部对象你就需要成千上万个线程因此执行这些操作的最完美的选择是GPU
GPU是一个大规模的并行处理器有成千上万个线程可用用于安排操作的执行可以把一个对象分配给一个专用线程并执行我们想要在那个对象上执行的所有操作通过成千上万个线程你可以并行处理成千上万个对象因此如果你把它从CPU移到GPU 渲染循环效率会很高并且正如我之前提到过的那样它还会释放你的CPU 用于执行其它想要执行的处理如何把全部这些操作移到GPU上呢？你可以通过在GPU上合并计算和渲染通道实现从而我们可以在GPU上驱动整个渲染循环而不需要CPU参与这个想法我的意思是这就是我们所需要的这里的整个渲染循环都在GPU上它完全由GPU驱动现在让我们看一下这些通道看这个GPU驱动的渲染循环实际是如何运作的
现在我们需要的是用于遮挡剔除的遮挡数据那么首先我们有一个计算通道获取场景数据执行包围盒的椎剔除并编码渲染包围盒的命令现在这些编码的遮挡绘制命令在一个渲染通道中执行因此我们生成所有必要的遮挡数据这个遮挡数据可以是多种不同的形式取决于它的生成方式那么你可能想进一步处理那个数据为此我们有另一个计算通道在这个通道中包围盒数据可以转化为一种更适用于遮挡剔除的形式我们还需要一个计算通道来执行我们所讲过的操作也就是剔除、细节层次选择、和编码场景绘制命令这里有一件事要了解即这里的遮挡剔除已经不再依赖以前帧的数据了在我们刚讲过的前两个通道中为当前帧生成所要求的包围盒数据同时因为我们生成当前帧的数据数据也更精确了
最后我们有另一个渲染通道执行场景绘制命令用于渲染场景在这个GPU驱动的渲染循环中一切都发生在GPU上无论何处都没CPU-GPU 同步操作也不会依赖上一帧的数据我们该如何创建这个GPU驱动的管道呢？现在很明确要在GPU上创建这个渲染循环我们至少需要两个东西第一个是绘制命令
我们需要一种在GPU上编码绘制命令的方式从而计算通道可以为渲染通道编码命令 Metal所提供的支持这个功能的 building block 是非直接命令缓冲区我们还需要场景数据我们应该能通过帧在GPU上访问所编码的场景数据在任何需要的情况下通过这个场景数据我们应该可以几乎描述整个场景了比如几何图形、共享参数、材料等等在Metal提供的支持这个功能的 building block中是参数缓冲区现在让我们深入看一下这两个 building block
现在参数缓冲区可以让你描述整个场景数据有复杂的数据结构它们允许你在渲染循环的任何位置访问场景数据而非直接命令缓冲区允许你在GPU上创建绘制调用从根本上来说它在GPU上支持大量命令并行生成现在让我们进一步看一下参数缓冲区通过一个示例场景对象模型来看
我们所需要的第一个东西是对场景数据的访问那么场景数据通常都包含什么？首先是网格这就是网格它是网格对象的一个区域每个网格对象都描述了它的几何图形还有材料它是材料对象的一个区域每个材料对象都有一组材料属性、它所需要的任何纹理以及描述阴影管道的管道操纵对象场景还包含模型区域在此每个模型都可以拥有一个LOD 因此在这个例子中每个LOD一个模型每个模型都包含网格区和材料区最后我们有场景对象关联网格、材料和模型那些都是我们场景的一部分让我们看一下这个对象模型如何通过参数缓冲区进行表达
它是一个非常简单的一对一映像从我们的对象模型映像到参数缓冲区比如这里的场景参数缓冲区包含我们在对象模型中描述的对象就是网格区、材料区和模型区从根本上来说整个场景现在可以通过参数缓冲区来描述现在让我们看一下如何在着色器中构造并访问它
现在我们所讨论的每个参数缓冲区都用结构表示那包含我们在对象模型中所描述的元素因为每个参数缓冲区都是一个绝对灵活的结构你可以添加比如数组、指针、甚至是指向其它参数缓冲区的指针比如这是一个Metal参数缓冲区它包含Metal常量、它所需要的任何纹理当然了还有描述阴影管道的管道专用对象材料所需要的一切都在一个参数缓冲区中场景参数缓冲区正是我们在对象模型中所描述的样子因此用参数缓冲区构造对象模型非常简单现在让我们看一下如何访问共享中的这些参数缓冲区
我们刚讲过有一个计算内核可以进行椎剔除它编码绘制命令把可见对象绘制到非直接命令缓冲区中每个线程都执行这个内核的一个实例处理一个对象并编码一个单一绘制调用如果它决定那个对象可见的话让我们看看它是如何实现的
首先我们给着色器传入我们的高层级场景参数缓冲区现在一旦我们可以访问着色器可以访问场景访问我们所需要的其它东西就非常简单了这里的命令R包含对我们想要编码的非直接命令缓冲区的引用
我们首先根据线程ID 从场景中创建了这个模型请注意这个计算内核的所有线程是并行执行的每个线程操作一个特定的对象然后我们执行椎剔除查看对象是否落在视椎外一旦我们决定对象可见我们就根据它到摄像机的距离计算它的LOD 一旦我们有了LOD 读取它相应的网格和材料参数、应用到那个LOD上的参数缓冲区就非常直截了当了之所以直截了当主要是因为参数缓冲区关联我们在场景中所需要的资源的方式
我们已经得到我们所需的全部信息现在是时候进行编码了让我们看一下编码到非参数缓冲区和非直接命令缓冲区到底是什么意思
非直接命令缓冲区是渲染命令的一个区域每个命令可以有不同的属性一个命令可以包含一个管道专用对象管道专用对象描述一个共享的管道和绘制调用所需要的任意漩涡和碎片缓冲区还有绘制调用自己从根本上说编码的意思是一旦我们决定一个对象可见我们就读取它和它所有的属性并把这些编码到非直接命令缓冲区中现在凡是正在处理对象的线程都可以编码到这个非直接命令缓冲区的一个特定的编码槽中因为所有线程都是并行运行的可以同时进行命令编码现在让我们继续看剔除内核例子看一个真实的编码示例
我们首先需要在命令缓冲区中有一个位置来编码绘制命令因此我们使用绘制ID为我们自己在非直接命令缓冲区中获取编码槽就像我们所讨论的那样我们需要设置绘制调用所需要的参数现在我们刚获得的材料和网格参数缓冲区已经有我们要设置参数所需要的全部信息那么比如从材料中我们可以设置我们需要设置的管道专用对象从网格对象中我们可以设置我们需要设置的任何漩涡缓冲区或漩涡一致性当然了碎片需要材料因此我们也要设置它最后这就是如何编码绘制就是这样编码绘制调用非常简单和简便
现在让我们看看你该如何在你的游戏中设置通道
现在我们首先需要一个非直接命令缓冲区来编码包围盒绘制命令因为这是当我们讨论 GPU驱动的渲染器循环时所讲到的第一个东西要渲染包围盒我们要启动一个计算分派执行包围盒的椎剔除并编码包围盒绘制命令因为每个线程都是独立编码绘制的因此在非直接命令缓冲区中可以有多个状态设置、写入和状态设置我们可以根据需要优化非直接命令缓冲区从而移除任何驱动端阶段设置现在这是一个随机通道在非直接命令缓冲区中执行包围盒绘制类似地其余通道的设置也很简单比如这是我们的主计算分派启动我们刚才讲过的剔除内核它执行剔除测试、LOD选择并编码绘制命令我们已经准备好启动最后一个渲染通道了它会在非直接命令缓冲区中执行命令那么就是这些这就是绘制场景所要做的一切操作现在让我们看一下在编码绘制命令后非直接命令缓冲区看起来是什么样子的
现在它可能很稀疏有很多洞这主要是因为正如我们在剔除内核例子中所看到的那样正在处理对象的线程不会编码绘制命令如果它发现那个对象不可见的话比如这个例子中的对象一和对象三那意味着非直接命令缓冲区中的这些编码槽是空的因此如果你把这个命令缓冲区提交到GPU 它将会执行一大堆空命令那样效率很低因此理想情况是像这样把命令紧密地打包到一起也就是当我们编码绘制时我们需要一种打包命令的方式
为此我们有非直接原则
通过非直接范围你可以告诉有执行调用的GPU 去哪里获取要执行的命令范围从根本上说你可以有非直接范围缓冲区它有一个起始位置和一堆要执行的命令并且这个缓冲区可以在你执行绘制命令的编码时在GPU上进行填充执行调用将从这个缓冲区中选择起始位置和要执行的命令的数量
它可用于打包也可用于给出范围现在让我们看一个例子看这个实际是如何运作的
这是我们刚才讨论过的剔除内核我们对它进行了修改以使用非直接范围缓冲区让我们看一下这个内核如何打包绘制命令
我们首先传入指向非直接范围缓冲区的长度元素的指针当我们检索要编码的命令时我们可以自动增加长度现在每个线程都自动增加长度当计算工作完成后长度会被自动设置到非直接范围缓冲区中同时绘制命令也被打包好了因为在这段代码中由这个自动指令所返回的索引是之前的长度值因此比如如果你从零开始使用零号编码槽的线程把长度增加到一使用第一个编码槽的线程把长度增加到二以此类推这很棒因为现在我们不仅打包了命令我们同时还更新了范围
现在让我们看一下如何在app中设置非直接范围缓冲区
首先你要给计算通道创建一个范围缓冲区用于更新范围接下来你要把范围缓冲区设置为剔除计算内核的内核参数然后我们执行启动了首先执行对象的剔除内核的计算通道同时自动更新范围最后你通过非直接范围API 安排缓冲区中有执行命令的通道现在这个调用将选择起始位置和要从这个非直接范围缓冲区中执行的命令的数量通过非直接范围你可以获得更多非直接命令缓冲区的有效执行
目前在我们的GPU驱动的管道中所有这些绘制命令都创建在GPU上的计算通道中并且这些计算通道是你的游戏中发生常规分派的地方那么有一个问题就是在GPU上创建计算分派我们是否可以把计算分派编码到非直接命令缓冲区中？我很高兴地告诉你们我们在 Metal 3中新添加了一个功能支持编码计算分派
现在你也可以在GPU上创建计算分派了关于功能性计算非直接命令缓冲区就跟渲染一样它们也可以创建一次之后就能一次又一次地重复使用它们还可以帮助节约CPU周期最棒的是渲染和计算现在都可以在GPU上进行非常棒因为现在你可以创建更灵活的 GPU驱动的管道了现在让我们通过一个用例看一个例子
每个补丁曲面细分因素假如我们有一个网格由一堆补丁组成我们想给每个补丁都生成曲面细分因素我们当然可以在剔除计算内核中实现就是我们讲过的那个执行剔除任务和编码绘制命令的剔除计算内核它是GPU线程处理对象的方式是进入对象的每一个补丁并生成曲面细分因素但这样真的效率太低了因为生成曲面细分因素自身也是一个很有麻痹性的操作因此如果按操作在多线程中进行分配会很有效率那样可以并行处理所有补丁也就是说正在处理对象的剔除计算分派的每个线程都可以编码计算分派用于测试因素生成并且这些分配可以在另一个计算通道上执行从而麻痹操作那么通过GPU驱动的分派我们现在可以实现了让我们看一下如何把GPU驱动的管道交换为适应这种处理
这是我们之前讨论过的主计算通道它执行剔除任务、LOD选择并编码绘制命令我们现在可以让这个通道同时也编码分派用于生成测试因素比如在某线程决定某对象可见后它可以编码分派用于在非直接命令缓冲区中生成测试因素然后那些命令可以在主渲染通道之前在另一个计算通道上执行 GPU驱动的分派与GPU驱动的绘制合并可以让我们创建更灵活的 GPU驱动的管道
我们要创建一个示例为你实际演示一下我们所讲的内容让我们看一下
这里是你之前见过的小酒馆场景这个我们实际上正在低空飞过这里的街道这个场景大约由280万个多边形和接近8000个绘制调用构成这只是一个视图的如果你考虑这里使用的用于阴影处理的阴影瀑布那么这个渲染器正在处理四个这样的视图因此如果这场景在CPU上进行渲染会有相当多的API调用但在这个例子中我们使用了非直接命令缓冲区因此一切都在GPU上执行它完全是由GPU驱动的整个渲染循环都在GPU上因此它节约了许多CPU
让我们再看一个视图现在我们看的是同一个视图同一个低空飞行但我们正在看摄像机穿过这里的街道为了能让大家看清楚我们把摄像机显示为一个白色物体那就是摄像机
我们显示了几何图形那个洋红色的几何图形正在下落这个几何图形落在了摄像机的视椎外因此你可以看到随着摄像机穿过街道有不少几何图形都落在了摄像机的视椎外我们的剔除计算分派在GPU上执行椎剔除它决定这个几何图形这个有色的几何图形为不可见对象因此在GPU上不会处理或渲染这个几何图形节约了许多渲染成本
让我们再看最后一个视图
这是另一个视图在这里我们显示了工作中的椎剔除和遮挡剔除我们我们把被遮挡住的几何图形染成了蓝绿色而洋红色的几何图形处于视椎外你可以看到右边有不少几何图形都被小酒馆遮挡住了因此它们是蓝绿色的你可以看到这里有许多几何图形无论是在视椎外或是被遮挡住了再一次我们的剔除计算内核在GPU上既执行椎剔除又执行遮挡剔除那就决定了这些几何图形是不可见的因此我们不会在GPU上处理或渲染这个染色的几何图形这节约了许多渲染成本并提升了性能
较为简单的GPU家族在我们结束这场演讲之前我想再给大家介绍一个东西我要讲一下我们如何把在Metal核上写交叉引用变得比以前更简单了我还要讲一下如何更容易地瞄准 iOS、tvOS和 macOS上的特定功能在此之前先让我们看一下现在各平台上可用的Metal功能
现在Metal在iOS和 tvOS平台上有一些新功能在演讲的上半场我们讲了如何在非直接命令缓冲区中设置管道状态从而帮助你充分利用 GPU驱动的管道我们还讲了非直接范围如何让你更简单、更有效地打包和执行非直接命令最后我们还向 iOS和tvOS引入了 16位深度纹理支持
这一直都是一个很流行的请求可以帮助优化阴影贴图渲染 Metal在macOS上也有一些重要的新功能
如果你需要向内存缓冲区中执行更灵活的输出的话我们现在可以实现不带附件渲染了你可以查询你的命令缓冲器在GPU上的所花的时间从而可以动态地调整表示区间最后MacOS现在支持sRGB 和非sRGB视图之间的投射从而更好地适应线性和非线性照明
现在让我们看一下新GPU家族API
你之前使用Metal功能根据可用功能和限制设置查询使你的app适应但功能的数量功能集合增长了它们当前的数量以打为单位 GPU家族查询替换了功能集合使得系统的查询功能更简单了首先我们把它们合并为四个家族并把它们组织起来简化跨平台开发过程第二每个家族都支持一系列等级的功能它们被组织到一个或多个实例中因此支持一个实例意味着支持所有更早以前的实例第三新API把Metal 软件版查询独立出来用于追踪指定家族的实例如何改变软件的提交最后一个GPU家族定义了一小套设备查询有一些可选功能并未放到家族中通过这些信息让我们具体看一下新的GPU家族定义
现在所有iOS和tvOS功能都被组织到各自的家族中一个家族有五个实例每个实例支持之前实例内的所有功能我不打算在这里列举所有功能但这场演讲的资源部分有一个表表中列出了家族和实例的功能 Mac功能只围绕两个实例组织 Mac 2支持来自Mac 1的所有功能
现在查询这些功能这些家族很大程度上简化了扁平的、非特定的代码的书写但当你想瞄准所有平台时会怎么样？为此我们有新的通用家族通用家族把Metal功能组织到跨平台等级中所有Metal GPU 都普遍支持通用1 对于只稍微使用了Metal的 app来说是个不错的选择
通用2提供所有创建优秀游戏开发必要的building block 比如非直接绘制、统计遮挡查询、曲面细分和Metal性能阴影支持通用3提供高级app所需要的所有功能比如非直接命令缓冲区、分层渲染、立方体贴图数组以及漩涡位置不变量最后Metal 3为iPad app提供一个专用家族使它们能引入到Mac中也就是为那种体验进行的调整
两个iOS Mac实例支持功能合并这对于在Mac上获得强大性能来说至关重要特别是它们使得 Mac专用的区块压缩像素格式和管理文本模式可用可以在另外的完全是iOS的app内使用现在iOS Mac 1 支持通用2的所有功能外加来自通用3的一些功能除了BC像素格式和所管理的纹理它支持立方体纹理数组、读写纹理、分层渲染、多视图端口渲染和非直接曲面细分
iOS Mac 2 支持通用3的全部功能除BC像素格式和所管理的纹理之外那么这就是四个新家族现在让我们看一下在实践中如何使用新QD API
在这个例子中我们会检查Mac 2功能是否可用
我们先检查OS 是否支持新家族API 如果新家族API可用我们就用它来检查 Metal 3功能是否可用因为Metal 3是新发布的你不需要对它进行严格的检查但这是一个很好的做法
如果Metal 3可用我们就检查我们想要使用的家族这里的跨平台app 检查其中一个通用家族以及一个或多个 Apple或Mac专用家族
如果API或版本号有一个不可用我们就返回较老的功能集API 或较老的Metal版本
现在让我们看一下你可以查询的设置选项功能
当某家族在家族内指定了 GPU的通用行为后但某些重要的功能和限制在家族内并不是统一地都支持比如深度24模板8像素格式以及一个像素中MSA样本的数量为了处理这些问题 Metal设备提供了一个API 可以直接查询其中每一个功能但你可以看到这个类中并没有太多功能
那么要结束这场演讲让我们看一下目前我们讲过的技巧有多少被新GPU家族所支持
经典的延迟着色在所有平台上都支持可编程混合在所有 Apple GPU上都支持它是开发游戏的一个很好的默认选择平铺延迟和前向渲染也通过 Apple专用优化被广泛支持要求有更先进的硬件条件最后可见度缓冲区技巧只由Mac家族支持它恰好有非常苛刻的分辨率要求
现在让我们看一下这些家族如何支持GPU驱动的管道功能然后就结束我们的演讲
现在有些功能要求广泛的支持成为渲染引擎的核心部分我们相信GPU驱动的管道也要求那种支持因此我们非常高兴地告诉你们现在通用家族2及之后的家族都支持用于图形和计算的参数缓冲区和非直接命令缓冲区
然后我们就要结束这场演讲了用Metal进行现代化渲染我们希望你们可以在你们的游戏和app中应用所有这些技巧让我们快速回顾一下
我同事Jaap讲了如何用Metal 实施更高级的渲染技巧比如延迟着色、平铺前向渲染与iOS非常相配当合并和优化可编程混合和平铺共享时在Mac上你可以使用新的中心坐标和查询LOD来实施可见度缓冲区技巧并以高分辨率进行渲染但无论你选择使用哪种技巧你都可以把整个渲染循环移到GPU上椎剔除、遮挡剔除、LOD选择都可以在通过参数缓冲区和非直接命令缓冲区GPU上实现现在你还可以把计算分派编码到 GPU上的非直接命令缓冲区中
无论你是想瞄准iOS或 macOS上的大范围硬件或想使用一些高级Metal功能你现在都可以使用新的、重新设计的GPU家族API 在运行时检查可用的功能
现在请访问我们的演讲网站了解关于Metal功能和GPU驱动的管道的更多信息我们将发布我们在这场演讲中使用的示例app 你可以探索这些技巧并把它们整合到你的app 和游戏中请参加我们的演讲事实上这场演讲结束之后就有一场演讲
谢谢祝你们度过愉快的会议时光谢谢

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

资源

相关视频

WWDC21

WWDC19

Tech Talks