Core MLとARKitを使用して優れたAppを作成する

WWDC19に戻る

Core MLとARKitを使用して優れたAppを作成する

Core MLやARKitなどのAppフレームワークを組み合わせて、教育用ゲームを作成していく様子を見てみましょう。このセッションでは、機械学習の力を活用して、Appで魔法のようなインタラクションを生み出す方法を紹介します。また、難しいコンピュータビジョンの問題を解決するためのアプローチについてより深く理解していただけます。インタラクティブなコーディングセッションで、Appが完成するプロセスについてご確認ください。

リソース
関連ビデオ

WWDC19
(音楽)
(拍手) おはようございますご来場ありがとうございます
Appleでは技術を開発していますアプリケーションで最高の体験を提供するためです
私のお気に入りは技術を融合させ体験に没入できるアプリケーションです
本日はそんな技術を２つご紹介します Core MLとARKit
どちらもデバイスによる周囲の世界の認識を高める技術です
現実と仮想の世界の融合に役立ちます
本日はそんなアプリケーションを構築する旅に出ましょう直面した困難とその解決方法も紹介します
困難から生じた課題も取り上げます
最初の問いは機械学習の有用性です
答えがノーなら短いセッションになるでしょう
安易にイエスとも言えません解決するべき問題の種類と手持ちのデータで答えは変わってくるからです
機械学習のカギはデータの理解ですプログラムでは書くことが困難なデータのパターンを理解することですデータはアプリケーション内にありますユーザが日々入力するものです
キーボードで文章を入力し
マイクで音声を録音します
そしてカメラで動画と画像をキャプチャします
問題に直面した時に機械学習は役に立つかもしれません解決へ向け問題の性質と使えるデータを確認してください
本日取り上げる第２のテーマはモデルの挙動の理解です
モデルは特定の形式の入力を予想して特定の形式で出力するよう作られています
入力の形式がモデルの想定したものでなければ出力も想定外になります
出力に関してはモデルの挙動を理解しない限りアプリケーションでのすばらしい体験の提供は困難です
入力と出力を可視化する方法をこの後紹介します今は私たちの旅を続けましょう技術を組み合わせて仮想と現実の世界を融合しますそれができるのがアプリケーションです
楽しい教育アプリケーションを構築します数を数え計算する数学のスキルを子どもが練習するものです
時として子どもはサイコロを計算の練習に使います単に仮想のサイコロを画面上で転がすだけではつまらない実物のサイコロを使えばより楽しいと考えました実物を転がしてアプリケーションと連携させます
その方法を考えました
最初に直面した課題は―
サイコロを認識させる手段
やり方はいくつかありましたまずプログラムを使う方法
少し複雑になります
６面のサイコロに限定すればその特徴が見えてきます例えば背後に出ているサイコロは灰色です
サイコロは常に灰色ではないので役に立つ情報ではありません
平面として捉えた場合― ６角形で歪んだ正方形が３つ見えます
テーブル上を転がると移動して変化します
各面に注目すると複数の点が見えますしかし見ている面や自らの位置により点の数は変わりますこのように特徴が変化するためサイコロを認識するプログラムを書くことは難しいです
そこで機械学習を用いてみましょう
画像分類モデルに学習させることでサイコロを画像で認識します
知りたいのは画像内のサイコロの数です単にその存在を知りたいのではありませんそこで物体検出モデルを用います物体検出モデルはサイコロの存在だけでなくサイコロの位置も示します位置が分かれば数を把握できます
これにはデータが必要ですテーブル上を転がるサイコロの画像を数多く撮りました
次に画像を境界ボックスで囲み画像内のサイコロの位置を示します
新しいCreate MLを使い― カスタム物体検出モデルに学習させます
もっと知りたい方は Create ML for Object Detection and Sound Classificationをご覧ください
ではスコットに実演してもらいますスコット (拍手) おはようございますおはよう！ (笑い声) 物体検出という機械学習の技術を使ってサイコロを数える能力を追加する方法を見せますさっそく実演に取りかかりましょう
ライブカメラの映像に接続したアプリケーションがありますサイコロを検出し数を数える機能を追加しましたサイコロを画面に入れてみましょう１つ２つ
３つ
４つ転がすこともできます
すごいでしょう物体検出を使ってサイコロを数えます本日はモデルの挙動の理解についてお話ししますモデルが見ている映像のデバッグ表示を見てみましょう検出された物体を境界ボックスで囲みますテーブル上のサイコロですサイコロを動かすと境界ボックスも動きます
これは重要な点です物体検出機能の学習を始めたばかりの時は検出対象以外の物体が囲まれることや― 検出の対象が囲まれない場合がありますそんな時こそより多くのデータを集めるのです背景を変えてデータを収集したり照明や物体の数を変えたりしますサイコロの数を 10個まで増やしたり逆に減らしたりサイコロなしの画像で他の対象を無視させることも
これを行うコードを見てみましょう
VisionフレームワークのCreate MLで作成した物体検出機能を使うと VNRecognizedObjectObservationのリストが返ってきますこれらのobservationを処理し２つのことを行う関数があります１つ目は最も簡単サイコロを数えますサイコロと同数の observationを数えるだけ
次は認識された物体の observationに基づき境界ボックスを画面に描く２つのヘルパー関数です
１つ目の関数は各observationの境界をマッピングします observationは入力画像に基づき正規座標として与えられますこの関数でView Controllerの視点座標系にマッピングし直すことで境界ボックスを画面に描き実際の対象物に重ねられます
次のヘルパー関数は画面に表示する角丸長方形を作ります CALayerですそれをOverlayLayerに加え画面上に描きます本セッションのサンプルアプリケーションとしてコードは入手可能です
頼もしいアプリケーションです物体検出でサイコロを数えられます既にお気づきかもしれませんがサイコロの数はゲームで重要ではありません肝心なのはサイコロが示す数字そこで一歩先に進みサイコロの目を認識する方法を考えましょう
これがアプリケーションのゴールです右側のサイコロの目が５で左側が１だと認識させたい
幸いにも物体検出機能は検出だけでなく分類もできます違った種類の物体や画像を認識できるからですそこで学習データをアップデートしサイコロの目によって分類しましたご覧のとおりです
実用性がありそうなのでアプリケーションに使ってみました実際の使用例を見てみましょう
大半の場合成功でしたご覧のとおり― 左側のサイコロは正しく検出され正確に分類されました
しかし反対側に注目すると６と４は１つのサイコロとして検出されています
何が起きたかというと２つの別のサイコロとして見分けられていないのです４の手前に別のサイコロがあるせいです検討の結果気づいたことがあります重要な上の面は常に画面に映っているのですそこでモデルを少し修正しました上の面に注目するよう学習データをアップデートしました物体検出機能に学習をさせサイコロではなく上の面を検出させますその結果をお見せします
モデルは先ほどと同じサイコロを正確に推測し分類していますさらに右側のサイコロも正しく検出されています
もう１点お話ししましょう
開発の途中こんな誤作動が起こりましたサイコロの左側ばかり一貫して検出されています最初は戸惑いましたが画像を回転してみるとモデルが誤認した理由が判明しましたモデルの入力を見るとすぐに気づきました画像の向きをデバイスに合わせていませんでした Visionのタスクによくある問題ですモデルの出力に妙な点があれば入力を確認しましょう画像の向きをデバイスに合わせるだけで解決する場合もあります
新しいモデルを使ってみます
同じアプリケーションですがサイコロの検出と分類ができるようにアップデートしました
サイコロは３つ使いますモデルは６と５と２を推測しています転がしてみましょう
４６５見事に実用できそうです (拍手) 注目していただきたい重要な点がありますサイコロを動かすとリストが更新されますテーブルにサイコロが並んだ順に数値のリストを表示していますデザインの細かい点ですが体験に一貫性を与えますテーブル上のサイコロと同じ順番で見えるからです仮想と現実世界を融合しているのでユーザにはこのように一貫性のある形で推測を示すようにしていますもう１点検討が必要ですいつサイコロが止まるか？ゲームで重要なのは転がっている最中ではなく止まった時のサイコロの目ですゲームではサイコロを転がしその結果に基づき駒の動きや判断が決まりますアニメーションを用いたりユーザへのフィードバックが必要です実演で気づいたでしょうが数字はサイコロが止まった時に出ますではそのやり方は？まずは何を観察するか考えましょう
この場合サイコロが止まった時― カメラフレーム間で数値の変化はありません機械学習が使えるでしょうか？フレームを読み込み止まった時間を判定する逐次モデルの構築も可能ですでもモデルはサイコロを既に理解しています必要なのは出力の解釈です
コードの書き方を見てみましょう
ObjectObservationのリストを２つ受け取る関数があります現在と直前のカメラフレームのリストですサイコロの停止を判定する要素が数点ありますまずサイコロの数は同数か？サイコロがフレームに入ってきて数が増えることやサイコロが跳ねて検出されないこともあります
サイコロの数が違えば転がっている最中です
次に現在と直前の推測結果を比べます上面の数字が同じでなければサイコロはまだ動いています
境界ボックスが85％を超えて重なっているかも確認します比較対象の境界ボックスが重なっていない場合― ２つの異なるサイコロであるか同一のサイコロが大きく動いたという意味です条件に合致した数がサイコロの数と同じなら停止しています
アプリケーションは― サイコロの検出や数の計算認識が可能になりましたまたサイコロの停止も理解できさらなる開発の基礎が整いました私たちの旅の次なるステップです再びブレントに登壇してもらいましょう (拍手) ありがとう　スコット
さてアプリケーションはテーブル上のサイコロを認識できます次はユーザの入力をどう扱うかです
数学の練習アプリケーションなのでユーザは数字を入力します画面にテンキーを表示して入力してもらうことも可能ですがより自然にアプリケーションとやりとりしてもらいたいここでのユーザは子どもです子どもは数字を書く練習もしますそこで数字を直接画面に書くことを考えました
アプリケーションは手書きの数字を認識する必要があります幸いにも機械学習はこの点に関して優秀です手書きの数字をモデルに教えられるデータセットが使えます名前はMNIST それを使ったモデルを Core MLモデルのページに載せましたコードを読み使い方を確認しましょう使うのはVisionとPencilKit
Visionの設定をして Core MLモデルを使いますここではMNISTClassifierです
次にPencilKitのcanvasViewから画像を取得します
次にリクエストハンドラを設定し画像を使います
そしてリクエストを実行し結果を得ます簡単でしょう
モデルに組み込んだところうまく作動しています多くの手書き数字を認識できました
さらに大きい数字を書くと興味深い点に気づきましたモデルは時々推測を誤ります何が起きているのでしょう？
モデルに入力される画像の確認が必要です
Xcodeでそれができます PencilKitから画像を取得するところにブレークポイントを設定します Xcodeのクイックビューで画像を見ます
興味深い点に気づきました７の例がモデルには７のように見えていませんむしろ１に見えます
その原因は？
モデルが想定する入力を考えましょう
モデルは28×28ピクセルの画像を想定しています画面上の画像はそれより大きいです
画像を正しく認識できるように縮小しますしかし縮小によって画面上の線の情報が失われ７が１に似てしまいました
原因が分かれば修正は簡単画面の線を太くするだけです
そうすると縮小の後にモデルに送られる画像は画面に書かれた字に近づき正しく予測されます
PencilKitで簡単にできます指で画面に書くため allowsFingerDrawingをtrueにします toolは太い線のマーカーに設定します
よし１ケタの数字は正しく推測できるようになりました
問題はいくつか残っています
一部の数字は複数の線で書かれます
モデルは線の情報ではなく数字の静止画を取得します画面に書かれたものをどの時点で取得し推測させるべきでしょうか？
さらにサイコロで掛け算や足し算を行うため― ケタが複数になる可能性がありますモデルが学習しているのは１ケタの認識だけですどう対処しましょう？
機械学習も１つの手です数字の情報を認識するよう学習させ複数のケタを認識させることも可能ですでも画面上の数字の情報は既にありますなのでプログラムで解決しました方法を見せます
これを例にします１の最初の線が書かれました
取得された画像からモデルが推測します１です
次に２画目底の線が書かれます
２本目の線が１本目と重なっているか確認します重なっていれば同じ数字ですその場合は最初の推測を破棄して２本の線を組み合わせ１つの画像としてモデルに送りますそれが１と予測されます
次にユーザが別の線を画面に書きます３本目が最初の２本のどちらかと重なるか確かめます重ならないので別の数字です前の数字とは別にモデルに送られ２と推測されます
スコットがアプリケーションを実演しますスコット (拍手) ありがとうアップデートされたアプリケーションですサイコロと数値の検出と分類ができますブレントの話にあった入力認識機能も追加済みですでは算数の時間です
ユーザはサイの目の数字を足すか掛けるか選べますまずは単純に足し算から始めます入力の処理機能を見てください
“正解” (拍手) 数値を掛け算すれば 24になるはずです興味深い数字です画面に４と書くとどうなるかよく見ていてください
４は２本の線で書かれるので１本目が書かれた時点で４と認識するのは難しいです２本目を書く前は別の数字を推測するかもしれません見てみましょう
“正解” １本目の線は１と推測されましたが２本目を書くと４に変わりました常に正解になる答えもありますもっと４の例をお見せしましょう
“正解” アプリケーションはサイコロを認識し転がりも理解し数学のチェックもしてくれます画面に書くことで数字を入力できます今回の話のテーマは現実と仮想の世界の融合ですゲームをする子どもが声で入力できたらもっと楽しいやりとりが可能になるはずですその点を考えます
もう一度２つの数値を掛けると24になります音声を使ってやってみます 24
“正解” (拍手) Speechフレームワークを使えば簡単です
今年のSpeechの新機能はオフライン音声認識ですインターネット接続がない時でもアプリケーションで音声認識が使えますユーザのデータをデバイスにとどめておきたい場合― デバイス上で音声認識を行うように requiresOnDeviceRecognitionを trueに設定します
今のところサイコロの転がりを理解し多様な入力の処理が可能ですアプリケーションの完成へ向け旅を続けましょう再びブレントが登壇します (拍手) ありがとう　スコット
スコットが言うとおり
アプリケーションはサイコロを認識しユーザの入力を処理しますですがこれはゲームですゲームらしくしましょう
次はARKitに組み込んで体験の仕上げを行います
あらゆるゲームにはルールが必要ですまずはルールを作りましょう
このゲームは９つに仕切った円形のボード上で行います
プレイヤーはセクション１から始めます時計回りに回ってちょうどセクション９に着けばゴールです
出た目が小さすぎるとたどり着きません
大きすぎるとゴールを通り越してしまいます
プレイヤーは順番にサイコロを振ります選択肢は２つ
サイコロの目を足して時計回りに進むか引き算をして出た数字を時計回りに進みますスコット　ゲームをするかい？
(拍手)
仮想のボードを ARKitのゲームに組み込みましたサイコロの認識には Core MLを使いますお先にどうぞ　ブレントいいとも
よし１個は５で… ５と２の目が出た
よし２つの目を足すよ
いいねすごく近いね確かに
６と１が出たから引き算して５マス進むか足し算して８のブレントと並ぶか足すことにしよう
よし
１は出ないと思うどうかな
今度は引き算だ２マス進むよ
また６と１が出た今回は手を変えて５つ進もうブレントは僕の５の書き方が変だと思ってるね
このゲームはすごく長引きそうだけど確か“常に正解となる数字がある”とスコットが話していたね僕らのゲームでも同様かな？
秘密をつかんだね　ブレントお見事成功！ (拍手)
さて本日は複数の技術を組み合わせて現実と仮想世界を融合しました単一の技術を上回る体験を構築し一段上の新しい世界で楽しいゲームをしました物体検出を使ってテーブル上のサイコロを認識
画像分類で画面上の手書きの文字を認識アプリケーションへの入力には音声認識も使いました
そしてARKitですべての体験を仕上げました
詳しい情報はデベロッパWebサイトのセッション228を参照するか明日のラボに来てご質問ください残りもお楽しみください (拍手)

リソース

関連ビデオ

WWDC19