Core MLを使用してデバイス上に機械学習モデルとAIモデルをデプロイ

その他のビデオ

Core MLを使用してデバイス上に機械学習モデルとAIモデルをデプロイ

Core MLによって機械学習モデルとAIモデルを変換し実行する際のスピードとメモリパフォーマンスを最適化する、新しい方法を確認しましょう。モデルの表現、パフォーマンスに関するインサイトの取得、実行、モデルのスティッチングのための新しいオプションについて解説します。これらのオプションを組み合わせることで、デバイス上のプライベートな環境で効果的な体験を実現できます。

関連する章
- 0:00 - Introduction
- 1:07 - Integration
- 3:29 - MLTensor
- 8:30 - Models with state
- 12:33 - Multifunction models
- 15:27 - Performance tools
リソース
関連ビデオ

WWDC23
- 非同期予測によるCore ML統合の改善方法
- Core ML Toolsを使った機械学習モデルの圧縮法
Tech Talks
- PyTorchモデルをCore MLに変換する
ダウンロード

こんにちは Core MLチームのエンジニア Joshua Newnhamです本日はCore MLの新機能をご紹介しますこれらの新機能は機械学習やAIモデルをデバイス上で効率的にデプロイして実行するのに役立ちます
デバイス上でモデルを実行すると新しい形式のやり取りパワフルなプロ用ツール健康やフィットネスデータからインサイトに富んだ分析を作成できる素晴らしい可能性が生み出されますその際個人データのプライバシーとセキュリティは保護されます
何千ものアプリがCore MLを使用してデバイス上のMLを活用した素晴らしい体験を生み出していますみなさんにもできます
このビデオではまずモデルデプロイワークフローにおける Core MLの役割を確認します次は便利な機能について見ていきますまずモデル統合を簡単にする新しいタイプについて説明します次に状態を使ってモデルの推論効率を高める方法を詳しく見ていきますその後は効率的なデプロイのための多機能モデルを紹介します最後にモデルのプロファイリングとデバッグに役立つ Core MLパフォーマンスツールのアップデートについて確認しますでは始めましょう
機械学習ワークフローは 3つのフェーズで構成されていますモデルのトレーニングと準備と統合ですこのビデオではデバイス上での機械学習とAIモデルの統合と実行に焦点を当てますトレーニングについては Apple GPUでのMLモデルとAIモデルのトレーニングに関する今年のビデオをご覧になることをおすすめしますモデルの変換と最適化については Appleシリコンへのモデルの導入に関する今年のビデオをご覧ください
モデルの統合はMLパッケージから始まります MLパッケージは準備フェーズで作成された成果物ですここからCore MLを使うとこのモデルをアプリに簡単に統合して使用できます
Core MLはXcodeと緊密に統合されておりさまざまな種類の機械学習とAIモデルでデバイス上の推論を実行するための統合APIを提供します
モデルはAppleシリコンのパワフルな演算能力を使用して実行され CPU、GPU、Neural Engineに作業をディスパッチしますこれはMPSグラフとBNNSグラフという Core MLモデルも使用できる他の2つの機械学習フレームワークの助けを借りて行われますユースケースで Metalとの緊密な統合や CPUでのリアルタイム推論が必要な場合に最適です詳細については関連するビデオをご覧ください推論スタック全体で大幅な改善が行われたため Core MLは今年さらに優れたパフォーマンスを発揮します
たとえばiOS 17と18の相対的な予測時間を比較すると多くのモデルでiOS 18の方が高速であることがわかりますこの高速化はOSが実現するものでモデルの再コンパイルやコードの変更は必要ありませんこれは他のデバイスにも当てはまりますが高速化はモデルとハードウェアによって異なります
モデルを変換したらモデルを効率的に統合して実行する方法を見ていく準備が整いました
モデルをアプリに統合するのは必要な入力を渡して返された出力を読み取るだけの簡単な作業です
ただしより高度なユースケースでは急激に複雑さが増す可能性がありますたとえば生成AIは反復的であることが多く複数のモデルが含まれる場合があります
このようなユースケースではモデルの外部に計算が存在しエンドツーエンドのパイプライン実行に必要な接着剤やスティッチングとして機能しますこの計算をサポートするには多くの場合操作を一から実装するか様々な低レベルAPIを使用する必要がありどちらもコードが長くて複雑になりますでもこれは今までの話です
Core MLの新しいタイプである MLTensorをご紹介します MLTensorはこの計算をサポートする便利で効率的な方法を提供します
MLTensorは機械学習フレームワークに典型的な多くの一般的な演算操作と変換操作を提供します
これらの操作は Appleシリコンのパワフルな演算能力を使用して実行され高いパフォーマンスを実現します
また人気のPython数値ライブラリに似ているため機械学習をすでにご存じの場合はより簡単かつ直感的に導入できますいくつかの例を見ながら APIを詳しく見てみましょう
まずテンソルをいくつか作成して操作しますテンソルには様々な作成方法がありますがここでは2つを紹介します
1つ目はMLShapedArrayからテンソルを作成し 2つ目はネストされたスカラのコレクションを使用します MLShapedArrayと同様に MLTensorは多次元配列で形状とスカラ型で定義されます形状は各軸の長さを指定しスカラ型は保持する要素の型を示しますテンソルの作成方法がわかったのでテンソルの操作方法を見ていきましょう基本的な計算から始めますテンソルは幅広い演算に対応しますこの例では要素ごとに加算と乗算を実行しその後結果の平均を計算しますテンソルはリテラルとシームレスに連携しフレームワークは互換性のある形状を自動的にブロードキャストします次に結果をその平均と比較することでブール型マスクが作成されますこのマスクに結果を乗算してフィルタ処理したバージョンを作成しマスクがfalseである値をゼロにします次にテンソルの形状をインデックス付けして変換する方法を説明します Pythonの数値ライブラリと同様に各次元にインデックスを付けることでテンソルをスライスできますこの例では行列の最初の行を取得し reshapeメソッドを使用して展開し直しますすべてのテンソル操作は非同期でディスパッチされますこのためテンソルはその基礎となるデータにアクセスする前に明示的にMLShapedArrayに具体化される必要がありますそうすることで上流のすべての操作が完了しデータが利用可能になります
ここまでテンソルを作成して操作する方法を見てきたので次はもっと面白いことに目を向けましょう MLTensorがどのように大規模な言語モデルの統合を簡素化するかを見てみましょう
まずモデルの例とその出力について簡単に紹介しますモデルは自己回帰言語モデルですつまり前の単語のコンテキストに基づいて次の単語またはトークンを予測するようにトレーニングされます
文を生成するには予測された単語を入力に追加しシーケンス終了トークンが検出されるか設定された長さに達するまでこの処理を繰り返しますただし言語モデルは 1つの単語を出力するのではなく語彙に含まれるすべての単語のスコアを出力します各スコアは次にその単語が来ることに対するモデルの信頼度を表します
デコーダはこれらのスコアをもとにさまざまな戦略を使用して次の単語を選択しますたとえばスコアが最も高い単語を選択したり調整された確率分布でランダムにサンプリングしたりしますデコード方法は変更できるためこのステップは通常モデルとは別に保持されますこれはMLTensorにとって最適です MLTensorの導入前と導入後のいくつかのデコード方法の実装を比較してどのように変化するかを見てみましょう
このデモではHuggingFaceの Swift Transformerパッケージと Chatアプリの修正バージョンに加えて準備のビデオで変換および最適化された Mistral 7Bモデルを使用しますデコーダの実装を比較する前にモデルの動きを見てみましょうスーパーヒーローのコーギーが登場する架空の子供向けストーリーのタイトルの候補を生成するようにモデルに指示します
スタートとしては素晴らしいですがさらにクリエイティブにしたいと思いますアプリはデフォルトで最も可能性が高い単語を選択しますこれは貪欲デコードと呼ばれる手法です
別のデコード方法を見てみましょう
top-kサンプリングを有効にするとアプリは次の単語を選択する際に常にスコアが最大の単語を選ぶのではなく top-kの最も可能性の高い単語をランダムにサンプリングします
最も可能性の高い単語をランダムにサンプリングすることに加えて温度を調整することで確率分布に影響を与えることもできます温度が高いと分布が平坦になりより創造的な応答が得られますが温度が低いと逆の効果が生まれより予測可能な出力が得られます
温度1.8で top-kサンプリングを使用してモデルを再実行してみましょう
これはもう少し興味深いものになります 2つのデコード方法の結果を確認したので MLTensorを使う場合と使わない場合の実装を比較してみましょう 2つの実装を比較すると明らかな違いが1つありますそれはMLTensorを使用して同じ機能を実現すると必要なコードがいかに少なくなるかということですといっても元のバージョンが間違っているという意味でも低レベルAPIが不要という意味でもありませんそれどころかこれは適切に作成されたパフォーマンスの高いコードであり低レベルのAPIが必要なインスタンスも多数ありますしかし多くの一般的な機械学習タスクでは MLTensorは簡潔な代替手段になりますこれにより低レベルの詳細ではなく優れた体験を作成することにもっと集中できるようになります前のセクションでは MLTensorが言語モデルからの出力のデコードを簡素化する方法について説明しましたこのセクションでは状態について説明し状態を使用して言語モデルから各単語を生成するのにかかる時間を短縮する方法を探りますまず状態の意味を説明します皆さんがこれまで操作したモデルの大半はおそらくステートレスですつまり履歴を保持せずに各入力を個別に処理しますたとえば畳み込みニューラルネットワークに基づく画像分類器は各入力が前の入力から独立して処理されるためステートレスです
これはご想像のとおり前の入力の履歴を保持するステートフルモデルとは対照的ですシーケンスデータに使用される再帰型ニューラルネットワークなどのアーキテクチャはステートフルモデルの一例です
現在ステートフルモデルは状態を手動で管理することでサポートできます状態は入力として渡され更新されたバージョンが出力から取得され次の予測に備えられますただし各時間ステップで状態に使用されるデータをロードおよびアンロードするとオーバーヘッドが発生しますこのオーバーヘッドは状態の規模が大きくなるにつれて顕著になります
今年 Core MLではステートフルモデルのサポートが向上しました状態の維持を手動ではなく Core MLで実行するようになったため前述のオーバーヘッドの一部が削減されますでは状態が役立つ可能性がある 1つのモデルタイプに注目してみましょう前のセクションでは言語モデルが語彙に含まれるすべての単語のスコアを出力しそのスコアが次に来る単語に対してモデルが割り当てる信頼度を表すことを学びましたスコアに加えて使用されたモデルは特定の単語のキーとバリューのベクトルも出力しますこれらのベクトルは単語ごとに計算されネットワーク全体に埋め込まれたアテンションメカニズムに使われることでモデルの自然な出力と文脈的に関連のある出力を生成する能力が向上します各ステップで前の単語ベクトルの再計算を避けるためにベクトルは保存・再利用されることが多くこれはキーバリューキャッシュ略してKVキャッシュと呼ばれますこのキャッシュは新しい機能に最適ですその方法を見てみましょう
モデルの入力と出力を使って KVキャッシュを処理する代わりに Core MLの状態を使用して管理できるようになりましたこれによりオーバーヘッドが削減され推論の効率が向上し予測時間が短縮されます
状態のサポートは準備フェーズでモデルに明示的に追加する必要があります方法については Appleシリコンへのモデルの導入に関するビデオをご覧ください
モデルに状態があるかどうかは Xcodeでモデルを調べることで簡単に確認できます
状態が利用可能な場合はモデルプレビューの予測タブのモデル入力のすぐ上に表示されます
では次の単語予測に使用されるコードを更新して状態をサポートする手順を見ていきましょうまずは必要な変更点を強調するために状態のないバージョンを確認します関連する部分だけに焦点を当ててキーとバリューのベクトルを格納するための空のキャッシュを作成することから始めます
このキャッシュは入力としてモデルに提供されモデルから返された値を使用して更新されますそれでは状態をサポートするために必要な変更を見ていきましょう
ほとんどのコードは若干の調整を除けば見慣れているはずです
各状態を手動で事前割り当てする代わりにモデルインスタンスを使って状態を作成しますこの例では Core MLはキーとバリューのベクトルを格納するためのバッファを事前割り当てし状態を参照するハンドルを返しますこのハンドルを使ってこれらのバッファにアクセスし状態の存続期間を制御できます
各キャッシュを入力として渡すのではなくモデルインスタンスによって作成された状態を渡します更新はインプレースで実行されるためキャッシュを更新する最後の手順を省略できますこれだけです状態をサポートするようにコードを更新し次の単語を予測する際に高速化された機能を利用しました
これはM3 Maxを搭載した MacBook Proで実行されている Mistral 7Bモデルを使用した KVキャッシュ実装の簡単な比較です左は状態なしで実装されたKVキャッシュ右は状態ありで実装された KVキャッシュを示しています右は約5秒で完了しますが左は約8秒かかりました状態を使うと1.6倍高速になりますパフォーマンスはもちろんモデルやハードウェアによって異なりますが状態を使用した場合に期待できるメリットの概要はこれでわかります
次のセクションでは複数の機能を備えたモデルを柔軟かつ効率的にデプロイできる Core MLの新機能について説明します機械学習モデルについて考えるとき通常は関数のように入力を受け取り何らかの出力を生成するものを思い浮かべます
関数は実際 Core MLでニューラルネットワークを表現する方法です関数は通常一連の操作を含む 1つの関数で構成されますこの機能の自然な拡張は複数の関数をサポートすることで現在Core MLで利用できますこの機能の具体例として複数のアダプタを備えたモデルを効率的にデプロイする方法を説明します
アダプタとは既存のネットワークに埋め込まれる小さなモジュールでタスクに合わせた知識でトレーニングします大規模に事前トレーニングしたモデルの機能を重みを調整せずに効率的に拡張できますこれにより1つのベースモデルを複数のアダプタで共有できますこの例ではアダプタを使って潜在拡散モデルによって生成される画像のスタイルに影響を与えます
しかし複数のスタイルをデプロイしたい場合はどうでしょうか
各アダプタにそれぞれ 2つ以上の特化モデルをデプロイするかアダプタの重みを入力として渡す方法がありますがどちらも理想的とは言えません
複数の機能に対応したことで今後はより効率的なオプションを利用できます
複数のアダプタを共通のベースで 1つのモデルにマージしそれぞれに関数を公開できます
Appleシリコンへのモデルの導入に関するビデオをご覧になり複数の関数を含むモデルを書き出す方法をご確認ください特定の関数を含むモデルを読み込むために必要なコードを見てみましょう
多機能モデルの読み込みは関数名を指定するだけです
読み込み後モデルで予測を呼び出すと指定された関数が呼び出されます指定がない場合はデフォルト値が呼び出されます動作を見てみましょう
このデモではオープンソースの Stable Diffusion XLモデルと修正済みのHuggingFaceの Diffusersアプリを使用してテキストから画像を生成しますパイプラインはMLTensorを使用してシームレスにつなぎ合わせた複数のモデルで構成されていますこれには2つの関数を持つ Unetモデルが含まれますそれぞれ異なるアダプタを使用して生成された画像のスタイルに影響を与えます Xcodeで開くとモデルで使用できる関数をプレビューできます
このモデルには2つの関数「sticker」と「storybook」があり入力と出力が同じなので両方に同じパイプラインを使用できますただし必須ではなく関数ごとに入出力を変えることも可能ですアプリに戻ってスーパーヒーローコーギーのステッカーを生成してみましょう
素晴らしい関数を切り替えてスーパーヒーローのスタイルを変えてみましょう
いいですねこのデモでは複数のアダプタを使用して単一のモデルをデプロイする方法を示しました各アダプタにはそれぞれの関数を使ってアクセスしますこの機能は汎用性が高く他の多くのシナリオで使用できます皆さんがどのように使うか楽しみです最後のセクションではモデルのプロファイリングとデバッグに役立つ機能強化と新しいツールについて簡単に説明しますまずはCore MLパフォーマンスレポートのアップデートですパフォーマンスレポートはすべての接続済みデバイスを対象に生成されコードの記述は不要です Xcodeでモデルを開きタブを選択し
ボタンをクリックして新しいレポートを作成し
プロファイリングするデバイスと
実行するコンピューティングユニットを選択してボタンを押すだけです
完了するとレポートには読み込み時間と予測時間の概要とともに演算ユニットの使用状況の内訳が表示されます今年のパフォーマンスレポートではさらに多くの情報が提供されます具体的には各操作の推定時間と演算デバイスのサポートなどです推定時間は各操作に費やされた時間を示しますこれは各操作の推定相対コストに中央予測時間を掛けて計算されます
ネットワークのボトルネックを特定するのに役立ちます推定時間に基づいて操作を並べ替えることで簡単に行えます
さらにサポートされていない操作にカーソルを合わせると特定の演算デバイスで実行できなかった理由のヒントが表示されます
この例ではデータ型がサポートされていないことがわかるので準備段階に戻って必要な変更を加えモデルとすべての演算デバイスの互換性を確保できます
このモデルでは精度をFloat16に更新するだけで済みましたより多くの情報とともにパフォーマンスレポートをエクスポートして他の実行と比較できます比較することでモデルへの変更の影響を簡単に確認できますアプリでコードを記述する必要はまったくありませんただしコードを使用する方が便利な場合もあります MLComputePlan APIを使うならコードが便利ですパフォーマンスレポートと同様に MLComputePlanは Core MLのモデルに関するデバッグとプロファイリングの情報を提供します APIは各操作のモデル構造とランタイム情報を表示します前述のようにサポートされる演算デバイスと推奨される演算デバイス操作のサポートステータス推定相対コストが含まれますではこのビデオのまとめに入りたいと思います Core MLの新機能を使用すると機械学習とAIモデルをデバイス上で効率的にデプロイして実行できます MLTensorを採用しモデルの統合が簡素化されました状態を利用すると推論の効率が向上します多機能モデルを使用して複数の機能を備えたモデルを効率的にデプロイできますパフォーマンスツールで新しい情報を活用してモデルのプロファイルとデバッグを行えますオンデバイスのパワフルな機械学習を活用して新しい体験を実現してください
特定のトピックをお探しの場合は、上にトピックを入力すると、関連するトピックにすばやく移動できます。

クエリの送信中にエラーが発生しました。インターネット接続を確認して、もう一度お試しください。

関連する章

リソース

関連ビデオ

WWDC23

Tech Talks