Visionフレームワークによるドキュメントの読み込み

Visionフレームワークによるドキュメントの読み込み

Visionフレームワークの最新機能を紹介します。RecognizeDocumentsRequestの概要と、この要素をテキスト行の読み取りとパラグラフへのグループ化、表の読み込みなどに使用する方法を説明します。また、カメラレンズの汚れ検出や、写真ライブラリやカメラキャプチャパイプラインの画像の潜在的な汚れを識別する方法についても詳しく解説します。

関連する章
- 0:00 - イントロダクション
- 1:22 - ドキュメントの読み取り
- 13:35 - カメラレンズの汚れ検出
- 17:59 - 手の形に関するアップデート
リソース
関連ビデオ

WWDC25
- Appleプラットフォームでの機械学習／AIフレームワーク
WWDC24
- VisionフレームワークにおけるSwiftの機能強化
WWDC23
- Visionで動物のポーズを検出
- Visionの3Dボディーポーズと人物セグメンテーションの詳細
こんにちは Megan Williamsです Visionフレームワークチームのエンジニアです Visionは人物検出やオブジェクト検出全身や手のポーズ追跡軌道分析などを始めとして様々なユースケースに向けた機械学習機能をアプリに簡単に導入できるAPIを提供します
ちなみに Vision APIはすべてデバイス上で実行されアプリ内でコンピュータビジョンタスクを最高のパフォーマンスで安全に実行します
AppleのAPIは iOS、macOS、iPadOStvOS、visionOSで利用できます
Visionは各種画像分析用に31のAPIを用意しています本日さらに2つが加わりますこのビデオではドキュメント読み取り用とカメラレンズの汚れ検出用の新しいAPIをご紹介します最後に手のポーズ検出機能のアップデート内容を説明します
では始めましょう
Visionは現在 RecognizeTextRequestで画像からテキスト行を正確に検出して抽出する機能を提供しています確かに優れた機能ですがさらに多くの情報を抽出できるような高度に構造化されたドキュメントも存在します
例えばこのチラシにはタイトル、段落リスト、表、バーコードがあります
文書のテキストを読むだけなら重要な構造情報は失われてしまいます例えばこの表でテキスト部分だけを抽出すると行や列の配置具合の情報は失われてしまいますテキストの文面だけでなくフォーマットも知りたい時のために今年 Visionに導入された新しいAPIはまさに打って付けの機能を提供します
それが「RecognizeDocumentsRequest」 26の言語でのテキスト認識に対応しておりデベロッパはこのAPIを使用してドキュメントから構造要素や重要な情報を抽出できます APIはテーブル、リスト段落を構成する行グループなどの
構造を検出することができ
QRコードなどの機械可読コードを検出しメールアドレス、電話番号、URLなどの重要な情報を識別しますこうした機能によりドキュメントの理解度がアップしより短いコードでより簡単に解析できるようになります
例えば経営している店舗で来店したお客様に毎月発行のニュースレターを申し込んでもらえるよう
名前やメールアドレス電話番号を入力できる購読申込書を作るとしましょう
申込書をスキャンするアプリを作って一人ひとりの連絡先を作成します
従来はRecognizeTextRequestでテキスト抽出し各セルを個別のオブジェクトとして返していました
一人分の連絡先を作成するにはどのセルが同じ行に属しているかテキストボックスの位置情報をもとに特定する必要がありました
これからはRecognizeDocumentsRequestがテーブルをペーストしてくれますセルは行ごとに自動でグループ化されるので申込書の解析がはるかに簡単になりますでは APIの使い方を紹介します
Recognize Documents Requestは他のリクエストと同じ操作感です Visionフレームワークの詳しい使用方法については WWDC 2024の「VisionフレームワークにおけるSwiftの機能強化」をご覧くださいでもどうぞご安心を今からおさらいします
Visionではリクエストを利用して画像を処理します実行する画像解析のタイプはリクエストによって決まります画像に関するリクエストを実行すると Observation（観測値）が生成されます例えば画像内で顔がある位置など画像に関する情報を教えてくれます
RecognizeDocumentsRequestはDocumentObservationを生成します
DocumentObservationからはドキュメントの内容や構造が分かります RecognizeDocumentsRequestを実行すると現状では Visionが画像ごとにDocumentObservationを1つ返します DocumentObservationは階層構造になっていて個々のドキュメントはコンテナとしてテキスト、テーブル、リストバーコードを保持します
テーブルはセルで構成されリストは項目で構成されそれ自体がコンテナとしてテキストなど他の要素を保持できます DocumentObservationについて紹介したところで申込書を解析してみましょう
まずドキュメントからテーブル構造を抽出します
ドキュメントの写真をiPadで撮影します
アプリがRecognizeDocumentsRequestでテーブルを検出し画面上に強調表示します
コードを見てみましょう
キャプチャしたばかりの画像からテーブルを抽出してみましょうまずはRecognizeDocumentsRequestを作成して画像に関するリクエストを実行します DocumentObservationが返されますドキュメントのTableプロパティにアクセスするとこの画像のテーブルを抽出できます
この場合ドキュメントにはテーブルが1つだけと想定して最初に検出したテーブル1つだけを返します
テーブルの検出ができたので内容を見てみましょう
テーブルは 2次元配列のセルで構成されていますセルには行からまたは列からアクセスできます
テーブルの境界をboundingRegionとして定義し画像に対するテーブルの座標を提供します各テーブルセルには行や列への所属関係を示すプロパティがあります
1つのセルは複数の行や列に及ぶ場合があるのでこの値はRangeとして表現します
セルの内容はContainerにあたりテキスト、テーブル、リスト、バーコードなどドキュメント内のコンテンツを保持します
Containerはこのほか固有のboundingRegionを収容します
データをテーブルとして抽出したので申込書を行単位で読めるようになりました
テキストの抽出にあたって各セルの内容を確認します
テキストを詳しく見てみましょうコンテナ内のテキストの表示方法は何通りかあります
Transcriptはすべてのテキストを 1つの文字列として表示します Linesの場合はテキストを行の配列として表示します
LinesをParagraphsにグループ化すれば実際の見え方に近いより自然なビューになりますある行が段落グループに含まれない場合それは 1行の段落とみなされます Wordsで単語レベルのリストも取得できますが中国語、日本語韓国語、タイ語など一部の言語はサポート対象外です
最後に DetectedDataはメールアドレスや日付やURLなどテキスト内で検出される特殊文字列でドキュメント内の重要な情報を表しています Visionは新しいDataDetectionフレームワークにより文字列をスキャンして重要なデータを取り出せます
電話番号やメールアドレス郵便番号も様々な書式の中から検出してくれます
URLは Linkとして検出され日付と時間は CalendarEventとして検出されます
測定値は単位とセットで検出され金額や通貨の種類も同様です
TrackingNumber、PaymentIdentifierFlightNumberも識別できます
こうした機能をフルに活用してサンプルアプリを拡張してみましょう検出済みのテーブルからテキストを抽出して連絡先のリストを作成します 1番目の列には名前があります次にデータ検出機能を使って他の列にある連絡先情報を識別します
それではサンプルコードを更新しましょう検出済みのテーブルを解析して連絡先のリストを生成します
連絡先ごとに名前、メールアドレスオプションで電話番号を収集します
各行で同じ操作を繰り返し実行して行ごとに連絡先を作成します
申込書は通常最初の列が名前の欄なので行頭のセルを取得します
このセルのテキストから連絡先の氏名を取得します
Transcriptですべてのテキストを文字列として取得します
この行にある他の情報も取得していきます
残りのセルで同じ処理を繰り返します
各セルで検出したデータを確認できるようになりました
他のデータも同様に処理して検出結果を確認しましょう
データの詳細表示に切り替えればメールアドレスや電話番号などを確認できます
メールアドレスが見つかった場合は検出情報をもとに連絡先を作成できます
購読申込書から簡単に連絡先のリストが抽出できました
リストをContactViewに渡すと連絡先がアプリに表示されます連絡先を見てみましょう
上出来ですね
テーブルをタブ区切りでエクスポートする機能も追加しました
メモやNumbersなど互換性のあるアプリにテーブルをコピー＆ペーストできます
この機能のコードを確認したい方は AppleデベロッパWebサイトからサンプルアプリをダウンロードできます要約すると RecognizeDocumentsRequestによってデベロッパは重要な情報をドキュメントから簡単に抽出できるようになります
APIはドキュメント構造を把握できるシンプルなインターフェイスでテーブルなどフォーマット化されたテキストを簡単に解析できテキスト、メールアドレス、電話番号などの重要な情報も識別できます
ここからは今年Visionに加わったもう1つの新機能を紹介します
カメラレンズの汚れ検出機能です
デバイスを手に取って購読申込書をスキャンするときついうっかりレンズを指で汚すこともあるでしょう
写真の画質が低下すると処理ができなくなってしまいます
こんなとき大活躍してくれるのがVisionの新機能です「DetectLensSmudgeRequest」は汚れたレンズで撮影された画像を識別してレンズの清掃や別の写真の提供をユーザに促すことができますこのリクエストによってアプリ内で高品質の画像だけを処理できるようになります
DetectLensSmudgeRequestはVisionの他のリクエストと同様に機能します画像に対してリクエストを実行するとSmudgeObservationが生成されます
観測値のConfidence（確信度）スコアは画像が汚れている確率を伝えてくれます
Confidenceは常に 0から1の範囲になります
Confidenceが「1」に近い場合は画像に汚れがある可能性が高く
「0」の場合は画像に汚れがない可能性のほうが高くなりますコードで利用する方法を紹介します
手元の画像に汚れがないか知りたいとします
まず DetectLensSmudgeRequestを作成します
次に画像上でリクエストを実行します
これで SmudgeObservationが生成されます
観測値の確信度は画像汚れの確率を示します
得られた確信度をしきい値と比較して低品質の画像を除外します
今回は「0.9」を選択しました
スコアがしきい値を超える画像は汚れていると見なして処理対象から外します
しきい値はアプリに最適のものを選択できます 3つのドキュメントは汚れの確信度スコアが異なります
しきい値を上げれば画像処理数は多くなりますただし画像の品質は低めになるでしょう
しきい値を下げれば除外される数は増えます時には誤検知によって高品質の画像も除外されるでしょう
レンズ汚れのない画像なのに汚れのスコアが高く出る場合があります
例えばこの画像は手ブレのためあたかも汚れたレンズで撮影したような画像になっています露光時間が長い画像や雲や霧の画像などでも同じことが言えますつまり汚れのスコアが低いというだけでは高品質の写真であるという保証にはならないのです例えばこの通気口の画像には汚れこそないものの面白くもなければ視覚的な魅力もなく友達と共有したいとは思えません他にも DetectLens SmudgeRequestと組み合わせて高品質の写真を検索できる APIが揃っています
顔が写っている画像では「DetectFaceCaptureQualityRequest」でキャプチャ品質を上げられますこのリクエストは一人分ずつCaptureQualityScoreを生成して
これも「0」から「1」のスコアで「1」に近ければ高品質のキャプチャです
顔が含まれていない画像の場合は「CalculateImageAestheticScores」で画像の全体的なスコアが得られます
ユーティリティ画像も識別可能でドキュメントや領収書の画像などきれいに撮れているけれども記憶に残らない内容の画像などを識別することができますリクエストの詳細についてはWWDC 2024の Visionに関するプレゼンテーションで紹介しています
ここで少し手のポーズ検出機能の更新情報をお伝えします
2020年以降デベロッパは「DetectHandPoseRequest」で手の関節21か所が特定可能になりました
関節は HandPoseObservationとして返されます
このテクノロジーは MLHandPoseClassifiersとHandActionClassifiersを強化して手のポーズやジェスチャーの識別を可能にします
例えばアプリ機能の操作に使うジェスチャーを認識するようモデルをトレーニングできます HandPoseClassifierのトレーニング方法の詳細は WWDC21の「Create MLによる手のポーズや動作の識別」をご覧ください
Visionは今年手のポーズ検出用のモデルをよりコンパクトな最新モデルに一新しました
新しいモデルでも 21個の関節を検出しますが精度は向上していますメモリ使用量とレイテンシーも削減できます新しいモデルでは精度が向上しただけでなく関節の位置も以前のモデルとは異なりますですから MLHandPoseClassifierやMLHandActionClassifierをすでにトレーニングしてある場合は精度を向上させるためにも新しいモデルでの Classifierの再トレーニングをお勧めします
今年登場予定の新機能をおさらいします 2つのリクエストを新たに導入します構造化された文書を把握するための「RecognizeDocumentsRequest」と汚れたレンズで撮影された写真の識別を可能にする「DetectCameraLensSmudgeRequest」ですまた手のポーズ検出用のモデルもアップデートします
ご紹介したサンプルアプリは AppleデベロッパWebサイトからダウンロードできます Visionが提供する多彩なAPIについて詳しく紹介している WWDC24の「VisionフレームワークにおけるSwiftの機能強化」もぜひご覧くださいご視聴ありがとうございました

/// Process an image and return the first table detected
func extractTable(from image: Data) async throws -> DocumentObservation.Container.Table {
    
    // The Vision request.
    let request = RecognizeDocumentsRequest()
    
    // Perform the request on the image data and return the results.
    let observations = try await request.perform(on: image)

    // Get the first observation from the array.
    guard let document = observations.first?.document else {
        throw AppError.noDocument
    }
    
    // Extract the first table detected.
    guard let table = document.tables.first else {
        throw AppError.noTable
    }
    
    return table
}

10:50 - Parse contacts

/// Extract name, email addresses, and phone number from a table into a list of contacts.
private func parseTable(_ table: DocumentObservation.Container.Table) -> [Contact] {
    var contacts = [Contact]()
    
    // Iterate over each row in the table.
    for row in table.rows {
        // The contact name will be taken from the first column.
        guard let firstCell = row.first else {
            continue
        }
        // Extract the text content from the transcript.
        let name = firstCell.content.text.transcript
        
        // Look for emails and phone numbers in the remaining cells.
        var detectedPhone: String? = nil
        var detectedEmail: String? = nil
        
        for cell in row.dropFirst() {
            // Get all detected data in the cell, then match emails and phone numbers.
            let allDetectedData = cell.content.text.detectedData
            for data in allDetectedData {
                switch data.match.details {
                case .emailAddress(let email):
                    detectedEmail = email.emailAddress
                case .phoneNumber(let phoneNumber):
                    detectedPhone = phoneNumber.phoneNumber
                default:
                    break
                }
            }
        }
        // Create a contact if an email was detected.
        if let email = detectedEmail {
            let contact = Contact(name: name, email: email, phoneNumber: detectedPhone)
            contacts.append(contact)
        }
    }
    return contacts
}

関連する章

リソース

関連ビデオ

WWDC25

WWDC24

WWDC23