機械学習を組み込んだAppの開発手法

優れた機械学習（ML）によるエクスペリエンスをあなたのAppに取り入れる方法を紹介します。モデルの発見、変換、トレーニングについて解説し、MLのヒントとベストプラクティスを紹介します。さらに、MLの導入に伴う考慮すべき事項をはじめ、モデルのパフォーマンスを評価するテクニックや、モデルを調整して、デバイスでリアルタイムのパフォーマンスを実現する方法について解説します。このセッションで取り上げたテクニックの詳細については、WWDC22の「Core MLの使用を最適化する」および「Metal Performance Shaders Graphで機械学習を促進する」をご覧ください。

リソース

関連ビデオ

WWDC23

非同期予測によるCore ML統合の改善方法

WWDC22

WWDC20

Core ML Convertersを使用したデバイス上のモデルの取得

（音楽）

どうもGeppy Parzialeです Appleの機械学習エンジニアです今日お話するのは機械学習を使って問題を解決するAppの作成についてでその問題は通常は専門家を要する種のものです

この機会を通してどのようにしてAppにオープンソースの機械学習モデルを追加し素晴らしい新体験を生み出すかお見せしますその中で強調したいのは機械学習を使ってAppを作るために Appleが開発エコシステムとして提供するツールやフレームワークやAPIです

ユーザーに最高の体験を与えることを目標に Appの作成中に様々な決定を行うことになります Appに機械学習の機能を加える時も同様です

開発中に考える例を挙げると… この機能を作るのに機械学習を使うべきだろうか？機械学習モデルはどうやって得られるのだろうか？ Appleプラットフォームでの互換性をどうやって持たせるのだろうか？そのモデルは自分の考える特別なユースケースで使えるだろうか？ Apple Neural Engineで実行可能なのだろうか？一緒にこれらを見ていきましょう私が地下室で見つけた白黒の家族写真にリアルな色付けができる Appを作りたいと思います

もちろん専門の写真家が手作業でできる作業ですが写真編集ツールを使って時間をかけて行いますその代わりにこの処理を自動化しほんの数秒で色を加えたいとしたらどうでしょうか？機械学習にもってこいのタスクのようですね

Appに機械学習機能を統合するためのフレームワークやツールが Appleには山ほどありますモデルトレーニング用のデータ処理から推論実行まであらゆるものが提供されていますここではそのほんの一部を使うつもりですですが開発している機械学習タスクの種類に応じて選べる種類は非常に多いと覚えておいてください私がAppの機械学習機能を開発する際のプロセスは一連の段階を踏んで行われます

まずは科学出版物か専門のウェブサイトで適切な機械学習モデルを探していきます

“写真の着色”で検索して見つけたのが Colorizerで丁度よさそうですこのモデルで行える着色の例がこちらです

別の例です

そしてもう１つ　非常に良いですねその使い方をお見せします Colorizerモデルは白黒画像の入力を想定していますＲＧＢ画像をＬＡＢ色空間に変換する Pythonのソースコードを見つけました

この色空間には３チャンネルあり１つは明度を表すＬチャンネルで他の２つは色成分を表します色成分は廃棄され明度が着色モデルの入力になります

そしてこのモデルは新たな２チャンネルを推測し入力のＬチャンネルと合わせて色付き画像となります

このモデルを私のAppで使えるようにしましょう coremltoolsを使ってオリジナルの PyTorchモデルを Core MLに変換しますこれがその変換で私が使った簡単な Pythonスクリプトです

PyTorchモデルのアーキテクチャとウェイトをインポートします

インポートしたモデルをトレースします最後に PyTorchモデルを Core MLに変換して保存します

モデルが Core MLフォーマットに変換されたらその変換が正しいかを確認する必要がありますこれも coremltoolsを使って直接 Pythonで行えますしかも簡単です画像を RGB色空間でインポートし Lab色空間に変換します

そして明度を分離後カラーチャンネルを廃棄します

Core MLモデルを使って予測を実行します

最後に入力の明度と推測された色成分を合成してＲＧＢに変換します

これで変換したモデルの機能がオリジナルの PyTorchモデルの機能と一致しているかを確認することができますこの段階をモデル検証と呼びますしかし確認すべき重要点はもう１つありますこのモデルが対象デバイスで充分な速度で動作するでしょうか？デバイス上でモデルを動作させて最高のユーザー体験になるか確認しなければなりません Xcode 14で提供される新しい Core ML Performanceは Core ML modelの時間ベースのパフォーマンス解析を行いますモデルを Xcodeにドラッグ＆ドロップすれば数秒でパフォーマンスレポートができあがります

このツールを使うと M1チップと iPadOS 16搭載の iPad Proでの推定推論時間は約90ミリ秒だと分かります

私の写真着色Appにピッタリだと分かりました Xcodeのパフォーマンスレポートについての詳細は "Optimize your Core ML usage" のセッションをどうぞパフォーマンスレポートでモデルの測定を行いデバイス上のユーザー体験を最高にできるのです

モデルの機能とパフォーマンスが確認できたので Appに統合します

統合のプロセスはこれまで Pythonで行ったのと同じですが今回は Swiftでスムーズに Xcodeや慣れたツールを使って行っていきます

Core MLフォーマットになったこのモデルは明度を表す単一チャンネルの画像を入力として受け付けます

ですから Pythonの時と同じように RGB入力画像はすべて Lab色空間の画像に変換します

この変換は複数の方法で書くことができます vImageを使って Swiftで直接変換するかあるいは Metalを使うか

Core Imageのフレームワークが役に立ちそうなものを提供してくれそうだとドキュメンテーションから分かりました

ここで RGBから LABに変換し Core MLモデルを使って予測を行う方法をお見せします

これが RGB画像から明度を抽出して Core MLモデルに送るためのSwiftコードです最初に RGB画像を LABに変換し明度を抽出します

そして明度を CGImageに変換し Core MLモデル用の入力を準備します

最後に推論の実行です入力 RGB画像から Lチャンネルを抽出するために最初に RGB画像をLAB画像に変換しますがその際に使うのが新しい CIFilterの convertRGBtoLabです明度の値は0から100の間に設定されます

そしてカラーマトリクスでLab画像を乗算しカラーチャンネルを廃棄し明度を呼び出し元に返します今度はモデルの出力側の様子を分析してみましょう

Core MLモデルは推測された色成分を表す２つのMLShapedArraysを返します

推論後２つのMLShapedArrayを２つのCIImageに変換します

最後にそれをモデルの入力明度と組み合わせますこれで私が RGBに変換し戻した新しい LAB画像ができました

２つの MLShapedArrayの２つの CIImagesへの変換では最初にそれぞれのShapedArrayから値を抽出します２つのカラーチャンネルを表す２つのCore Imageを作りそれを返します明度と推論されたカラーチャンネルの合成にはカスタムの CIKernelを使いますがそれが３チャンネルを入力に取り CIImageを戻してくれます

それから新しい CIFilterの convertLabToRGBを使って LAB画像を RGBに変換し呼び出し元に返しますこれが私の使うカスタムの CIKernelのソースコードで計算された２つのカラーチャンネルと明度を単一 CIImage内に統合します

ＲＧＢ画像をＬＡＢ画像に変換またはその逆の変換をする新ＣＩフィルターの詳細は画面左下に出ているセッションの内容を参考にしてください

これでAppへの機械学習機能の統合が完了したので実際に使ってみましょういや待ってください古い家族写真のAppでの着色をリアルタイムで行う方法とは？１枚ずつデジタル化して Appにインポートもできますが…

もっと良い方法があります iPadのカメラでこれらの写真をスキャンしてライブで着色してはどうでしょう？きっと楽しいでしょうし必要な物は揃っていますですがまず問題の解決が必要です

このモデルの１枚の画像の処理時間は90ミリ秒です動画の処理の場合はもっと速いものが必要です

スムーズなユーザー体験のためには最低でも 30fpsのカメラを使いたいわけで

約30ミリ秒ごとに１フレームの生成ということになります

ですがこのモデルは１フレームに 90ミリ秒必要なので着色１回ごとに２つか３つのフレームを失うことになります

モデルの合計予測時間はそのアーキテクチャとマップされる単位操作の計算の両方を表すものですパフォーマンスレポートからこのモデルが実行するのはニューラルエンジンとCPUで合計61オペレーションという事です

予測時間を速めたいならモデルを変えなければなりません試しにこのモデルのアーキテクチャに手を加えもっと速い代替品を作ってみようと思いますしかしアーキテクチャを変えればネットワークの再訓練が必要です

Appleの提供する別のソリューションでは Mac上で直接モデルに機械学習の訓練ができます

今回はオリジナルモデルが PyTorchで開発されたため Metalで新しい PyTorchを使うことにしましたそれにより Apple Siliconのハードウェアアクセラレーションが利用できるというわけです

Metalでアクセラレートされた PyTorchに関する詳細は画面左下に出ているセッションでどうぞ

この変更により少し後戻りすることになります

再訓練の後その結果を Core MLフォーマットに変換しもう一度それを検証しなければなりません

今回のモデル統合は単純に古いモデルを新しいモデルに替えるだけです代替モデル候補のいくつかを再訓練した後で自分の要求に合うモデルを検証しましたそのパフォーマンスレポートがこちらになりますすべてがニューラルエンジンで実行されていて予測時間は今や約16ミリ秒になっているので動画でも大丈夫です

ですがこれはAppのパフォーマンスの一面に過ぎません

事実 Appを実行するとすぐに気づいたのが思ったほど着色がスムーズでないことです実行時にAppに何が起こっているのでしょうか？

それを知るのに Instrumentsで新しい Core MLテンプレートが使えます

Core MLのトレースの初期部を分析すると Appが推論を溜めていることに気づいたのですこれは予想外です１フレームに１つの予測だと予想していました

トレースを拡大して冒頭部分の予測を調べると１つの Core MLの推論が終了する前に Appは２つ目を要求しています

ここでニューラルエンジンが最初の要求を処理しているのに２つ目が Core MLに付与されています

同様に２つ目の処理中に３つ目の予測が始まっています４つ目の予測の後になると要求と実行のラグは既に 20ミリ秒にまで広がってますこのようなラグを避けるために前の予測が終わってから新しい予測が始まるようにしなければなりません

またカメラのフレームレートを 30fpsの代わりにうっかり60fpsにしていたこともこの問題処理中に分かりました

前の予測が完了してから新しいフレームの処理が始まるようにしカメラのフレームレートを 30fpsに設定した後には Core MLは正確に1つの推論を Appleのニューラルエンジンに送るようになり Appはスムーズに動作しています

これで目標達成です

私の古い家族写真を使ってAppを試しましょう

こちらは地下で見つけた白黒の写真です昔イタリアに行った時に撮ったものです

ローマのコロシアムが写った素晴らしい写真です

壁や空の色がとても現実的ですね

ではこちらの写真です

イタリア南部のカステル･デル･モンテですとても素晴らしい

こちらは私の故郷グロッターリエですこれらの写真に着色すると思い出が蘇ってきます

着色しているのは写真だけで他の部分はすべて白黒のままだと分かりますね

Visionフレームワークで利用可能な長方形検出アルゴリズムを利用しているのです VNDetectRectangleRequestで写真だけを分離して Colorizerモデルへの入力に使えるというわけです

では復習します

今回は Appのための機械学習機能を準備し統合し評価するために Appleが提供する多くのフレームワークやAPIやツールを検討しました私は課題を解決できるオープンソースの機械学習モデルを特定することから始めました

望んでいる機能を持つオープンソースモデルを見つけ Appleのプラットフォームで使えるようにしました新しいパフォーマンスレポートを使用してモデルのパフォーマンスを直接デバイスで測定しました皆さんがご存知のツールやフレームワークを使いモデルをAppに統合しました

新しい Core ML Templateを使ってモデルを最適化しましたこれらの各開発作業は Appleのツールやフレームワークで直接に行えますデータ準備から訓練統合そして最適化まで全部です

本日の内容はデベロッパが Appleのフレームワークやツールを使って達成できるほんの一部の事ですこのセッションに関係する前出のセッションから Appにおける機械学習の画期的内容をご覧くださいフレームワークやツールを色々試してみましょうソフトウェアとハードウェアの大きな相乗効果を活かして機械学習機能を加速させ Appのユーザー体験を豊かなものにしましょうそれでは皆さんまたお会いしましょう

3:06 - Colorization pre-processing

from skimage import color

in_lab = color.rgb2lab(in_rgb)
in_l = in_lab[:,:,0]

3:39 - Colorization post-processing

from skimage import color
import numpy as np
import torch

out_lab = torch.cat((in_l, out_ab), dim=1)
out_rgb = color.lab2rgb(out_lab.data.numpy()[0,…].transpose((1,2,0)))

3:56 - Convert colorizer model to Core ML

import coremltools as ct
import torch
import Colorizer

torch_model = Colorizer().eval()

example_input = torch.rand([1, 1, 256, 256])
traced_model = torch.jit.trace(torch_model, example_input)

coreml_model = ct.convert(traced_model, 
                          inputs=[ct.TensorType(name="input", shape=example_input.shape)])

coreml_model.save("Colorizer.mlpackage")

4:26 - Core ML model verification using Core ML Tools

import coremltools as ct
from PIL import Image
from skimage import color

in_img = Image.open(“image.png").convert("RGB")
in_rgb = np.array(in_img)
in_lab = color.rgb2lab(in_rgb, channel_axis=2)

lab_components = np.split(in_lab, indices_or_sections=3, axis=-1)
(in_l, _, _) = [
    np.expand_dims(array.transpose((2, 0, 1)).astype(np.float32), 0)
    for array in lab_components
]
out_ab = coreml_model.predict({"input": in_l})[0]

out_lab = np.squeeze(np.concatenate([in_l, out_ab], axis=1), axis=0).transpose((1, 2, 0))
out_rgb = color.lab2rgb(out_lab, channel_axis=2).astype(np.uint8)
out_img = Image.fromarray(out_rgb)

7:11 - Colorization in Swift

import CoreImage
import CoreML

func colorize(image inputImage: CIImage) throws -> CIImage {

    let lightness: CIImage = extractLightness(from: inputImage)

    let modelInput = try ColorizerInput(inputWith: lightness.cgImage!)
    
    let modelOutput: ColorizerOutput = try colorizer.prediction(input: modelInput)

    let (aChannel, bChannel): (CIImage, CIImage) = extractColorChannels(from: modelOutput)

    let colorizedImage = reconstructRGBImage(l: lightness, a: aChannel, b: bChannel)
    return colorizedImage
}

7:41 - Extract lightness from RGB image using Core Image

import CoreImage.CIFilterBuiltins

func extractLightness(from inputImage: CIImage) -> CIImage {

    let rgbToLabFilter = CIFilter.convertRGBtoLab()
    rgbToLabFilter.inputImage = inputImage
    rgbToLabFilter.normalize = true
    let labImage = rgbToLabFilter.outputImage

    let matrixFilter = CIFilter.colorMatrix()
    matrixFilter.inputImage = labImage
    matrixFilter.rVector = CIVector(x: 1, y: 0, z: 0)
    matrixFilter.gVector = CIVector(x: 1, y: 0, z: 0)
    matrixFilter.bVector = CIVector(x: 1, y: 0, z: 0)
    let lightness = matrixFilter.outputImage!
    return lightness
}

8:31 - Create two color channel CIImages from model output

func extractColorChannels(from output: ColorizerOutput) -> (CIImage, CIImage) {

    let outA: [Float] = output.output_aShapedArray.scalars
    let outB: [Float] = output.output_bShapedArray.scalars
    let dataA = Data(bytes: outA, count: outA.count * MemoryLayout<Float>.stride)
    let dataB = Data(bytes: outB, count: outB.count * MemoryLayout<Float>.stride)

    let outImageA = CIImage(bitmapData: dataA,
        bytesPerRow: 4 * 256,
        size: CGSize(width: 256, height: 256),
        format: CIFormat.Lh,
        colorSpace: CGColorSpaceCreateDeviceGray())
    let outImageB = CIImage(bitmapData: dataB,
        bytesPerRow: 4 * 256,
        size: CGSize(width: 256, height: 256),
        format: CIFormat.Lh,
        colorSpace: CGColorSpaceCreateDeviceGray())
   return (outImageA, outImageB)
}

8:51 - Reconstruct RGB image from Lab images

func reconstructRGBImage(l lightness: CIImage,
                         a aChannel: CIImage,
                         b bChannel: CIImage) -> CIImage {
    guard
        let kernel = try? CIKernel.kernels(withMetalString: source)[0] as? CIColorKernel,
        let kernelOutputImage = kernel.apply(extent: lightness.extent,
                                             arguments: [lightness, aChannel, bChannel])
    else { fatalError() }

    let labToRGBFilter = CIFilter.convertLabToRGBFilter()
    labToRGBFilter.inputImage = kernelOutputImage
    labToRGBFilter.normalize = true
    let rgbImage = labToRGBFilter.outputImage!
    return rgbImage
}

9:08 - Custom CIKernel to combine L, a* and b* channels.

let source = """
#include <CoreImage/CoreImage.h>
[[stichable]] float4 labCombine(coreimage::sample_t imL, coreimage::sample_t imA, coreimage::sample_t imB)
{
   return float4(imL.r, imA.r, imB.r, imL.a);
}
"""

「今すぐ始める」を詳しく見る

最新情報

プラットフォームを詳しく見る

特集

テクノロジーを詳しく見る

特集

コミュニティを詳しく見る

特集

ドキュメントを詳しく見る

リリースノート

ダウンロードを詳しく見る

特集

サポートを詳しく見る

特集

クイックリンク