Core MLモデル
リサーチコミュニティがCore ML向けにデザインした機械学習モデルを利用して、アプリにインテリジェンスを実装しましょう。
リサーチコミュニティがCore ML向けにデザインした機械学習モデルを利用して、アプリにインテリジェンスを実装しましょう。
モデルはCore ML形式で、Xcodeプロジェクトに組み込むことができます。モデルの異なるバージョンを選択することで、サイズやアーキテクチャを最適化することができます。
画像
画像分類
カメラフレームまたは画像の中の主要なオブジェクトを分類するようトレーニングされたFast Hybrid Vision Transformerアーキテクチャです。
詳細を表示する
FastViTは、ImageNetデータセットでトレーニングされた汎用的なハイブリッド型のビジョン変換モデルであり、精度とレイテンシーの最適なトレードオフを提供します。
このモデルに備わる高パフォーマンス、低レイテンシー、および分布外サンプルに対する堅牢性は、以下の3つの新しいアーキテクチャ戦略に基づきます。
FastViTは、画像分類、オブジェクト検出、セマンティックセグメンテーション、3Dメッシュの回帰分析など、多岐にわたるコンピュータビジョンのタスクにおいて、競合する高性能アーキテクチャよりも優れたパフォーマンスをモバイルおよびデスクトップのGPUプラットフォーム上で安定的に提供します。
画像分類、オブジェクト検出、セマンティックセグメンテーション、3Dメッシュの回帰分析
バリアント | パラメータ | サイズ | 重みの精度 | アクティベーションの精度 |
---|---|---|---|---|
T8 | 3.6M | 7.8 | Float16 | Float16 |
MA36 | 42.7M | 84 | Float16 | Float16 |
バリアント | デバイス | OS | 推論時間(ミリ秒) | 演算ユニット |
---|---|---|---|---|
T8 F16 | iPhone 15 Pro Max | 17.6 | 0.67 | すべて |
T8 F16 | iPhone 15 Plus | 17.6 | 0.73 | すべて |
T8 F16 | iPhone 14 Plus | 17.6 | 0.82 | すべて |
T8 F16 | iPhone 13 Pro Max | 17.6 | 0.83 | すべて |
T8 F16 | MacBook Pro M3 Max | 14.4 | 0.62 | すべて |
MA36 F16 | iPhone 15 Pro Max | 17.6 | 3.33 | すべて |
MA36 F16 | iPhone 15 Plus | 17.6 | 3.47 | すべて |
MA36 F16 | iPhone 14 Plus | 17.6 | 4.56 | すべて |
MA36 F16 | iPhone 13 Pro Max | 17.6 | 4.47 | すべて |
MA36 F16 | MacBook Pro M2 Max | 15.0 | 2.94 | すべて |
MA36 F16 | MacBook Pro M1 Max | 15.0 | 4 | すべて |
MA36 F16 | iPad Pro(第5世代) | 17.5 | 3.35 | すべて |
Visionのフレームワークを使用して写真を前処理し、Core MLモデルを使用して分類します。
画像
深度推定
Depth Anythingモデルは単眼深度推定を実行します。
詳細を表示する
Depth Anything V2は、単眼深度推定のための基盤モデルです。パワフルなデータキュレーションエンジンとTeacher-Studentパイプラインを改良することで、オリジナルのDepth Anythingの強みを維持しつつ従来の課題を克服しています。
Depth Anything V2では、Teacherモデルのトレーニングに完全にコンピュータで生成された合成画像を使用するため、実世界の画像(実画像)の使用に伴う問題を回避できます。実画像は、注釈にノイズが多く解像度が低いために単眼深度推定モデルのパフォーマンスに制約が生じる可能性があります。Teacherモデルは、ラベルなしの実画像の深度情報を予測し、そうして得られた疑似ラベル付きの新しいデータのみを使用してStudentモデルをトレーニングします。そのため、合成画像と実画像の間での分布シフトを抑制できます。
深度推定タスクにおいて、Depth Anything V2モデルは最適化を通じてV1を上回る性能を実現しています。特に堅牢性、推論の速度、画像の深度プロパティ(微細なディテール、透明オブジェクト、反射、複雑なシーンなど)の点が向上しています。データキュレーションに対する高度なアプローチにより、標準のデータセット(KITTI、NYU-D、Sintel、ETH3D、DIODEなど)において優れたパフォーマンスを実現しています。また深度推定のために開発された新しいDA-2k評価セットでの評価で、V1やその他のコミュニティモデルと比較して9%以上の精度向上を達成しています。
Depth Anything V2は、幅広いモデルスケールを利用でき推論効率にも優れているため、多様なアプリケーションをサポートするほか、下流のタスクに合わせたファインチューニングのための一般化も可能です。3D再構成、ナビゲーション、車両の自律走行、画像やビデオの生成など、深度推定を必要とするあらゆるアプリケーションで使用できます。
深度推定、セマンティックセグメンテーション
バリアント | パラメータ | サイズ | 重みの精度 | アクティベーションの精度 |
---|---|---|---|---|
F32 | 24.8M | 99.2 | Float32 | Float32 |
F16 | 24.8M | 49.8 | Float16 | Float16 |
バリアント | デバイス | OS | 推論時間(ミリ秒) | 演算ユニット |
---|---|---|---|---|
Small F16 | iPhone 15 Pro Max | 17.4 | 33.90 | すべて |
Small F16 | MacBook Pro M1 Max | 15.0 | 33.48 | すべて |
Small F16 | MacBook Pro M1 Max | 15.0 | 32.78 | GPU |
画像
セマンティックセグメンテーション
オブジェクト検出およびパノプティックセグメンテーション用にトレーニングされたDEtection TRansformer(DETR)モデルで、セマンティックセグメンテーションマスクを返すように構成されます。
詳細を表示する
DETRモデルは、COCO 2017データセットでトレーニングされた畳み込みバックボーンを持つエンコーダ/デコーダTransformerです。実績のあるML戦略を組み合わせて使用することで、標準的なオブジェクト検出モデルと比較して、より洗練された方法で画像内のオブジェクトを検出および分類しつつ、同等のパフォーマンスを提供します。
DETRモデルは、予測されたオブジェクトと実際に検出されたオブジェクトとの間で二部マッチングを実行する損失関数を使用してトレーニングされています。推論時に自己注意を画像全体に適用し、すべてのオブジェクトを一度に予測します。グローバルな注意を採用しているため、DETRモデルのパフォーマンスは大きなオブジェクトでは標準のオブジェクト検出モデルよりも優れていますが、小さなオブジェクトでは劣ります。この制約にもかかわらず、困難なCOCOデータセットでの評価では、DETRは高度に最適化されたほかのアーキテクチャと同等の精度とランタイムパフォーマンスを達成しています。
DETRは、標準のCNNクラスとTransformerクラスが含まれるあらゆるフレームワークで簡単に再現できます。また、パノプティックセグメンテーションや、事前トレーニング済みのDETRを基盤としてトレーニングした単純なセグメンテーションヘッドを必要とするその他のタスクなど、より複雑なタスクに対応するための一般化も容易に行えます。
DETRでは、従来のアーキテクチャでは十分なパフォーマンスを達成するための要件であった、煩雑なサロゲートタスクや手作業でのコンポーネント設計が不要になります。代わりに、概念的にシンプルで簡単に再現できるアプローチを採用することで、オブジェクト検出パイプラインを効率化します。
オブジェクト検出、パノプティックセグメンテーション
バリアント | パラメータ | サイズ | 重みの精度 | アクティベーションの精度 |
---|---|---|---|---|
F32 | 43M | 171 | Float32 | Float32 |
F16 | 43M | 86 | Float16 | Float16 |
バリアント | デバイス | OS | 推論時間(ミリ秒) | 演算ユニット |
---|---|---|---|---|
F16 | iPhone 15 Pro Max | 17.6 | 39 | すべて |
F16 | iPhone 15 Plus | 17.6 | 43 | すべて |
F16 | iPhone 14 Plus | 17.6 | 50 | すべて |
F16 | iPhone 14 | 17.5 | 51 | すべて |
F16 | iPhone 13 Pro Max | 17.6 | 51 | すべて |
F16 | MacBook Pro M1 Max | 15.0 | 117 | すべて |
F16 | MacBook Pro M1 Max | 15.0 | 43 | GPU |
F16P8 | iPhone 15 Plus | 18.0 | 40.73 | すべて |
F16P8 | iPhone 13 Pro Max | 17.6 | 51.53 | すべて |
F16P8 | MacBook Pro M1 Max | 15.0 | 36.52 | すべて |
F16P8 | MacBook Pro M1 Max | 15.0 | 33.14 | GPU |
F16P8 | iPad Pro(第5世代) | 18.0 | 62.49 | すべて |
F16P8 | iPad Pro(第4世代) | 18.0 | 1224 | すべて |
テキスト
質問への回答
テキストの段落に関する質問の回答を探します。
詳細を表示する
モデル名 | サイズ | アクション |
---|---|---|
BERTSQUADFP16.mlmodel | 217.8MB | ダウンロード |
BERT(Bidirectional Encoder Representations from Transformers)モデルに質問をして、文書内で関連する記述の場所を特定します。
画像
画像セグメンテーション
カメラフレームまたは画像のピクセルを、あらかじめ定義した複数のクラスにセグメント化します。
詳細を表示する
画像
線画分類
1桁の手書きの数字(0〜9の数字に対応)を分類します。
詳細を表示する
画像
画像分類
カメラフレームまたは画像の中の主要なオブジェクトを分類するようトレーニングされたMobileNetv2アーキテクチャです。
詳細を表示する
画像
画像分類
カメラフレームまたは画像の中の主要なオブジェクトを分類するResidual Neural Networkです。
詳細を表示する
画像
線画分類
k近傍法(KNN)モデルに基づいて新しい線画の認識を学習する線画分類モデルです。
詳細を表示する
モデル名 | サイズ | アクション |
---|---|---|
UpdatableDrawingClassifier.mlmodel | 382KB | ダウンロード |
デバイス上で線画分類モデルをアップデートして、ユーザーが描いた線画をカスタムステッカーにマッピングする方法を確認しましょう。
画像
オブジェクト検出
カメラフレームまたは画像の中のオブジェクトを特定し、80種類に分類します。
詳細を表示する