使用 WebGPU 解锁 GPU 计算能力

了解 WebGPU API 如何为图形和通用计算提供安全访问 GPU 设备的权限。我们还将探讨用来编写 GPU 程序的 WGSL 着色语言。此外，我们将深入探索在台式机和移动设备上实现最优性能同时尽可能降低能耗的最佳实践。

章节

0:00 - 简介
2:14 - 探索 WebGPU API
9:54 - 开发着色器
13:57 - 优化性能

资源

相关视频

WWDC25

WWDC20

大家好我叫 Mike 是 Safari 浏览器团队的工程师今天我将向大家展示 WebGPU 如何让你从网页端解锁 GPU 的并行计算能力在 3D 图形方面 WebGPU 具备 WebGL 的所有功能但性能和灵活性要高得多它是网页图形处理的最佳选择除此之外它还是直接在浏览器中利用 GPU 执行通用计算的唯一方法如果你熟悉 Metal 使用起来会非常顺手大多数调用都与 Metal 框架的调用一一对应事实上所有支持 Metal 的平台都支持 WebGPU 具体包括 Mac、iPhone、 iPad 和 Apple Vision Pro 作为 Web API 使用 WebGPU 的网站和网页 App 可在所有支持它的设备上运行在非 Apple 系统上 WebGPU 通过类似 Metal 的 API 实现如果你不熟悉底层图形编程有许多支持 WebGPU 的网页图形库可供使用让你能够利用它提供的所有性能和功能实际上你可以使用在底层运行 WebGPU 的 threeJS 实时为这些精美的 3D 水母添加动画效果我认为这是一个很棒的例子而且在 Safari 浏览器中运行得非常流畅这要归功于 WebGPU 从设计之初就充分利用了当今的现代硬件首先我将探讨这个 API 以及 WebGPU 如何映射到 Metal 这将带大家了解任何 WebGPU 应用程序所需的大部分代码然后我将介绍如何创建 WebGPU 着色器程序即直接在 GPU 上运行的代码我将介绍着色语言以及为什么网页需要新的着色语言

在介绍完基础知识后我将讨论如何通过这个 API 获得最佳性能如果你已经熟悉 WebGPU 当我讲解针对 Apple 平台的特定优化时这部分内容会特别有趣首先让我们快速了解一下图形管道

管道可以看作是从左到右流动的它从你的网站或网页 App 开始加载各种内容例如图像、视频或二进制数据

这些内容随后会传递给 WebKit 由后者负责将它们准备好供 GPU 使用

WebKit 会调用 Metal 框架来创建资源和程序这些资源和程序稍后会直接在图形硬件上运行

现在让我们详细分析一下在 WebGPU 中 Metal 会生成三种类型的资源：缓冲区、纹理和采样器这些资源由 WebKit 组织成 GPU 绑定组基本上这是一种将资源分组在一起的结构化方式以便 GPU 可以高效地使用它们在底层实现中这些资源都被打包到一个参数缓冲区中这个缓冲区只是一个 Metal 缓冲区用于保存对实际 GPU 资源的引用程序本身来自代码字符串并被编译成三种主要类型：计算程序、顶点程序和片段程序这些是在 GPU 上运行的实际指令负责从计算到在屏幕上渲染像素的所有工作那么在深入理解资源和程序如何融入管道后我将简要介绍 WebGPU 如何在它的 API 中定义不同的接口

WebGPU 是一个扁平的 API 但它有很多接口层次结构的最顶层是 GPU 对象和 GPU 适配器接口

Canvas 通常与 WebGPU 一起使用 Canvas 现在可以通过查询 WebGPU 上下文来返回 GPUCanvasContext

设备是大多数 API 调用的主要入口点它用于创建大多数其他接口

尽管这个 API 中有很多不同的接口但它们可以简化为几个类别即纹理、缓冲区和采样器等资源

编码器用于对资源发出命令管道用于告知编码器如何解释各种资源绑定组用于将相关资源分组在一起以及着色器模块其中包含用于在 GPU 上运行计算的指令现在在了解了 WebGPU 的整体结构后让我通过展示如何创建设备和资源来介绍如何使用这个 API

设备是大多数 API 调用的入口点如果你熟悉 Metal 会发现它与 MTLDevice 非常相似

假设你的页面有一个 canvas 首先获取 canvas 元素然后使用 navigator.gpu.requestAdapter() 创建适配器并调用 requestDevice 来创建 GPU 设备

WebGPU 支持多种扩展一个是 shader-f16 扩展它让你可以使用半精度浮点数

它们通过减少内存带宽来帮助提高性能虽然所有 Apple 设备都支持这个扩展但它是一项可选功能因此在其他平台上使用之前请务必检查支持情况

接下来通过调用 configure 将 canvas 上下文与设备设置在一起这会将 canvas 链接到 GPU 可以实际写入的内存

现在设备已准备好我可以开始创建一些资源了在 WebGPU 中你将大量使用缓冲区和纹理等资源在 Metal 中它们由 MTLBuffer 和 MTLTexture 表示

缓冲区非常灵活你可以用它们来存储各种数据从浮点向量等简单数据到你自己定义的更复杂的自定数据类型例如你可能有一个缓冲区其中包含多个粒子类型的实例想象一下三个粒子就储存在那个缓冲区中

缓冲区是通过在设备上调用 createBuffer 来创建的传递缓冲区大小和使用模式使用模式使 WebGPU 能够避免数据争用而不会增加 API 复杂性

设备有一个名为 queue 的属性用于对缓冲区和纹理执行操作

创建缓冲区后通过调用 writeBuffer 来填充缓冲区的内容传递缓冲区、偏移量和 JavaScript arrayBuffer

与缓冲区类似纹理本质上也是内存块但它们会与 GPU 上的特殊纹理寄存器和指令相关联它们通常表示某些图像数据可以是一维、二维的二维纹理数组、立方体贴图即六个二维纹理的数组或者三维纹理

创建纹理的方式是调用 device.createTexture 并传入纹理的宽度和高度、 2D 纹理格式以及使用模式

创建 GPUTexture 后可以使用 device.queue.copyExternalImageToTexture 加载图像数据传递图像位图、我们刚创建的 2D 纹理以及图像大小

纹理通常由图像数据创建并在 GPU 上表示图像创建设备和资源后让我们看看如何创建管道

管道指定 GPU 上将如何使用纹理和缓冲区管道分为两种类型：渲染管道用于顶点程序和片段程序计算管道用于计算程序它们对应 Metal 中的 MTLRenderPipelineState 和 MTLComputePipelineState 对象

要创建计算管道只需调用 device.createComputePipeline 传递绑定组布局或常量自动标识符后者会从着色器生成布局

布局是缓冲区、纹理和采样器从 API 传递到 GPU 程序的结构化方式

创建管道需要着色器模块它由字符串创建

渲染管道的创建方式与之类似需要自动布局、顶点着色器模块以及片段着色器模块

创建设备、资源和管道后任何 WebGPU 应用程序的基本设置就完成了

现在我们已经了解了 WebGPU API 的架构我们来看看如何开发着色器

WebGPU 着色语言称为 WGSL 它让网站能够轻松编写直接在 GPU 上运行的程序 Apple 深度参与了 WGSL 着色语言的设计和实现 WGSL 从构建之初就考虑了网页安全性 WGSL 支持三种类型的程序：顶点程序、片段程序和计算程序

我将逐步介绍如何创建这个简单的 WebGPU 示例它由以下部分组成：一个顶点程序用于从 JavaScript 获取缓冲区数据并在屏幕上创建三角形一个片段程序用于计算纹理的单个颜色和深度值以及一个计算程序可用于执行任何常规计算但在这个例子中我们将执行物理模拟

顶点程序计算三角形在屏幕上的显示位置

在这里我们可以看到这个示例中使用的 100,000 个三角形的轮廓

要编写三角形的输出位置需使用 @builtin position 属性

这是 main 函数的定义以及顶点着色器的输入它只是写入位置和颜色现在我们来看看片段着色器

获取我们在顶点阶段生成的颜色并将这个颜色储存在纹理中这是一个简单的例子但你可以在这里插入任何逻辑来计算颜色和深度值你还可以写入存储纹理、缓冲区执行原子操作等等 WGSL 非常灵活现在让我们来看看更灵活的东西：计算着色器

与其他程序类型一样计算着色器可以包含许多绑定这些绑定是从 JavaScript 到着色器的输入

计算着色器非常酷因为你可以执行所需的任何计算将结果存储在缓冲区中并将缓冲区读回 JavaScript 代码中屏幕上不一定需要任何可视化效果 WebGL 不支持计算着色器这也是在任何新应用程序中使用 WebGPU 的另一个原因

计算程序需要指定一个工作组大小它定义了计算着色器将执行的网格大小

我们还使用 global_invocation_id 这是整个网格中的位置这是一个内置变量无需从 JavaScript 传递任何内容即可使用

计算着色器的主体会更新粒子模拟应用重力、速度和经过的时间

你可以在计算着色器中执行所需的任何计算并在 GPU 上以惊人的性能并行执行

在粒子完全淡出后通过在概率图上调用 textureLoad 并为粒子选择新位置以便选择一个新点来重新生成粒子

最后粒子的其余属性会重置为初始值并将粒子存储在缓冲区中

将所有这些相结合我们就得到了这个带有 WebGPU 标志的精美动画通过利用 GPU 的并行处理功能你可以执行以前从网页端无法实现的、任意规模的计算同时仍能实现实时性能

这很棒不是吗？

以上简要介绍了如何为 WebGPU 应用程序开发着色器现在我将展示如何从 WebGPU 获得最佳性能

只需牢记几个准则就可以帮助你在 Apple 平台上提供最佳体验获得出色性能的关键是关注内存的使用情况这意味着：使用节省内存的数据类型记录一次渲染命令然后重复使用它们并保持资源数量较低好了现在我们来更详细地了解

有几种方法可以最大限度地减少内存使用首先你可以使用半精度浮点数它们是 IEEE 标准在 WGSL 中数据类型称为 f16 它们确实有助于减少内存使用并提高性能也就是说它们并不总是实用的你需要确保算法在精度降低的情况下保持稳定并且要记住算法的值上限略高于 65,000 不像 32 位浮点数可以处理大得多的值特别是在 iOS 和 visionOS 上以 f16 或压缩格式存储数据确实可以帮助你避免程序因内存压力而终止要使用半精度浮点数你需要在创建设备时启用它们并在 WGSL 代码中声明下面通过一个简单的代码示例来展示如何做到这一点

首先在调用 requestDevice 时启用 shader-f16 扩展然后在着色器中添加“enable f16”语句

这样你就可以使用 f16 标量和向量类型以及像之前一样使用所有 32 位类型即使只是将数据以半精度存储并立即解压为 f32 仍能大幅减少内存占用避免 App 因内存压力而终止

另一种尽可能减少内存使用的方法是避免不必要的缓冲区和纹理更新调用这些操作需要将数据从 JavaScript 拷贝到为 Metal 资源提供支持的内存中使用索引和间接使用模式更新缓冲区成本尤其高昂因为再次使用缓冲区之前需要执行验证这些缓冲区直接或间接索引到顶点缓冲区 WebGPU 必须确保这些缓冲区的所有偏移量在执行任何绘制命令前都在有效范围内

仅在必要时更新这类缓冲区这也适用于在绑定组中使用具有写入或读写访问权限的缓冲区如代码示例所示除非在着色器中通过资源写入数据否则应优先使用只读访问尤其是当资源是索引或间接缓冲区时遵循这些内存使用建议可能会对性能产生很大影响不仅适用于 Apple 平台还适用于所有移动和桌面设备接下来我想详细介绍一下如何重用渲染命令

渲染捆绑包是实现这一点的绝佳方式让你能够对命令进行一次编码并根据需要多次重放 WebGPU 必须确保所有读写操作定义明确且在有效范围内这通常意味着每帧都需要大量验证但使用渲染捆绑包时这种验证仅在创建捆绑包时执行一次而不是每次运行时都执行这样可以节省时间使 App 性能更接近原生 App 为实际逻辑留出更多空间创建渲染捆绑包非常简单首先创建渲染捆绑包编码器然后对绘制调用进行编码就像使用渲染通道编码器一样调用 finish() 会创建捆绑包以供重用

现在有了捆绑包只需调用 executeBundles() 就可以根据需要多次执行所有这些绘制命令

在后台渲染捆绑包会映射到 Metal 的间接命令缓冲区并提供类似的性能优势现在我们已经解决了内存使用问题并减少了验证开销让我们看看如何减少资源数量

具体来说命令缓冲区、渲染和计算通道绑定组布局以及绑定组

命令缓冲区边界需要在高速片上内存和统一设备端内存之间进行同步如有可能每个更新循环使用单个命令缓冲区如果不可行一般的经验法则是尽可能少地使用命令缓冲区请记住仅在需要将数据写回统一内存时才需要拆分命令缓冲区这种情况通常很少见

与命令缓冲区不同通道不需要与统一内存同步但它们仍然会消耗大量内存带宽具体取决于渲染目标和计算调度大小因此最好尽可能少地使用通道以节省内存带宽

像许多手机一样 Apple 设备中的 GPU 以基于图块的延迟渲染器为基础遵循合并通道并节省内存带宽方面的最佳做法将帮助你的网站或网页 App 在 Apple 硬件上表现出色如需进一步了解基于图块的渲染器请观看 WWDC 2020“为搭载 Apple 芯片的 Mac 优化 Metal 性能” 以及“利用 Metal 驾驭 Apple GPU”

接下来我来重点介绍绑定组它们通过 Metal 参数缓冲区实现因此创建绑定组也会创建新的 MTLBuffer 通过使用动态偏移量可以创建单个绑定组这个绑定组共享相同的布局但在运行时使用不同的资源要使用动态偏移量必须创建自定绑定组布局而不是使用着色器模块的自动布局

调用 createBindGroupLayout 并设置 hasDynamicOffset 来创建布局然后传递新创建的布局以创建绑定组调用 setBindGroup 时会用到动态偏移量绑定组中的每个动态缓冲区需要一个偏移量

在这种情况下绑定组有一个使用动态偏移量的缓冲区因此会向 setBindGroup 传递一个偏移量

例如不建议创建 10 个绑定组每个内部有一个 64 字节的缓冲区

更好的方法是创建一个 640 字节的缓冲区来表示 10 个 64 字节的对象这样就避免了创建 9 个 Metal 缓冲区

通过在更少的内存中存储相似数据、避免重复验证并最大限度地减少创建的 Metal 对象总数你可以使用 WebGPU 创建出色、高效的网站和网页 App 希望你在使用 WebGPU 时考虑这些性能因素 WebGPU 允许直接在 GPU 上运行自定算法这是以前从网页端无法实现的强烈建议你立即开始在 Mac、iPhone、iPad 和 Apple Vision Pro 上使用 WebGPU 并考虑最佳使用指南

我对网页 GPU 编程的未来感到非常兴奋

0:00 - 简介
WebGPU 可在 GPU 上实现高性能 3D 图形和通用并行计算。它基于 WebGL 构建，可提供更出色的灵活性和速度。WebGPU 从设计上保障了不受平台限制，具有类似 Metal 的 API，且支持 Mac、iPhone、iPad、Apple Vision Pro 和其他非 Apple 系统。
2:14 - 探索 WebGPU API
WebGPU 管道通过 WebKit 和 Metal 框架处理来自网站或网页版 App 的内容。Metal 会生成 GPU 资源 (缓冲区、纹理和采样器)，并将它们组织成 GPU 绑定组，以便高效使用。然后，GPU 将利用这些资源以及经过编译的着色器程序 (计算、顶点和片段)。 WebGPU 的 API 是一个扁平的 API，提供了用于管理设备、资源、编码器、管道、绑定组和着色器模块的接口。你通常可以将画布与 WebGPU 搭配使用，并且可以查询“GPUCanvasContext”来创建 GPU 设备。
9:54 - 开发着色器
WebGPU 使用 WGSL，这是一种基于 Web 的 GPU 编程语言。它支持三种主要的程序类型：顶点、片段和计算。顶点程序定义屏幕上的三角形位置。片段程序计算纹理的颜色和深度。计算着色器是 WebGPU 的新增功能，可并行执行常规计算，从而实现物理模拟和其他复杂任务。
13:57 - 优化性能
如需优化 WebGPU 性能，请关注内存效率。你还可以尽量减少不必要的缓冲区和纹理更新调用，因为它们需要拷贝数据，而且很耗资源。强烈建议通过渲染包重复使用渲染命令，这样可以消除冗余验证，从而节省时间，并使性能更接近本机水平。此外，减少命令缓冲区、渲染通道和绑定组等资源的数量也至关重要。通过遵循这些准则，你可以创建优质且高效的网站和网页版 App，使它们在 Apple 硬件以及所有移动设备和桌面设备上都表现出色。

探索“入门汇总”

及时了解最新动态

探索“平台”

精选

探索“技术”

精选

探索“社区”

精选

探索“文档”

发布说明

探索“下载”

精选

探索“支持”

精选

快速链接

使用 WebGPU 解锁 GPU 计算能力

章节

资源

相关视频

WWDC25

WWDC20