Foundation Modelフレームワークの詳細

Foundation Modelフレームワークの詳細

Foundation Modelフレームワークで開発のレベルを引き上げましょう。ガイド付き生成の仕組みを理解し、ガイド、正規表現、生成スキーマを使用してカスタムの構造化された応答を取得する方法を学べます。外部情報へのアクセスとアクションの実行をモデルが自発的に行うためのツール呼び出しを解説し、パーソナライズされた体験を実現する方法も紹介します。

このビデオの内容を十分理解できるよう、まず「Meet the Foundation Models framework」を視聴することをおすすめします。

関連する章
- 0:00 - イントロダクション
- 0:49 - セッション
- 7:57 - Generable
- 14:29 - 動的スキーマ
- 18:10 - ツール呼び出し
リソース
関連ビデオ

WWDC25
こんにちは Louisです今日はFoundation Modelフレームワークを最大限に活用する方法を見ていきます
ご存知かもしれませんが Foundation Modelフレームワークを使用すると便利なSwift APIによってオンデバイスの大規模言語モデルを直接利用できますこのフレームワークはmacOS、 iPadOS、iOS、visionOSで利用できますまたオンデバイスで動作するためプロジェクトで使用するのも簡単なインポートで完了しますこのビデオで取り上げるのは Foundation Modelでのセッションの仕組み Generableを使用して構造化された出力を取得する方法実行時に定義される動的スキーマを使用して構造化された出力を取得する方法ツール呼び出しを使用してモデル呼び出しをカスタム関数に組み込む方法ですまずはシンプルにセッションを使用してテキストを生成してみましょう
今コーヒーショップを舞台にしたピクセルアートゲームを制作中なのですが Foundation Modelを使用してゲーム内の会話やコンテンツを生成すればより生き生きとしたゲームになるのではないかと考えています
モデルにプロンプトを送りプレイヤーの質問に応答させることでバリスタのユニークなセリフを生成できますこれを実現するためにカスタムの指示を伴う LanguageModelSessionを作成しますこれによりモデルにこのセッションの目的を伝えプロンプトではユーザーの入力を受け取ることができますこれだけでかなり楽しくて新しいゲーム要素を追加できます「ここで働いてどれくらいですか？」とバリスタさんに聞いてその返答を確認してみましょう
これは完全にオンデバイスで生成されました大成功ですでは実際の仕組みはどうなっているのでしょうか Foundation Modelによるテキスト生成の仕組みを理解し重要なポイントを確認しましょうセッションでrespond(to:)を呼び出すとまずセッションの指示とプロンプト（この場合はユーザーの入力）を取得しそのテキストをトークンに変換しますトークンは小さな部分文字列であり単語の場合もありますが通常は数文字程度です大規模言語モデルは一連のトークンを入力として受け取りトークンの新しいシーケンスを出力として生成します Foundation Modelが処理する具体的なトークンについて心配する必要はありません APIがそれを適切に抽象化するため気にせず利用できますただしトークンにはコストがかかることを理解しておく必要があります指示とプロンプトの各トークンによってレイテンシが増加しますモデルが応答トークンの生成を開始するには最初にすべての入力トークンを処理する必要がありますまたトークンの生成には計算コストもかかるため出力する応答が長いほど生成に時間がかかります
LanguageModelSessionはステートフルです各respond(to:)呼び出しはトランスクリプトに記録されます
トランスクリプトにはセッションに対するすべてのプロンプトと応答が含まれます
これはデバッグやUIでの表示に役立ちます
ただしセッションのサイズには上限が設定されています大量のリクエストを行ったり大きなプロンプトを設定したり大規模な出力を取得する場合コンテキストの制限に達することがあります
セッションが利用可能なコンテキストサイズを超えるとエラーがスローされるため適切に捕捉する準備をしておく必要がありますゲーム内でキャラクターと話していてエラーが発生すると会話が途切れてしまい残念ですねキャラクターのことをもっと知りたかったのに幸いなことにこのエラーから回復する方法があります
exceededContextWindowSize エラーを捕捉することです
そうすれば履歴のない新しいセッションを始めることができますただしこのゲームではキャラクターが突然会話の内容をすべて忘れてしまうことになります
現在のセッションからトランスクリプトの一部を選択して新しいセッションに引き継ぐこともできます
セッションのトランスクリプトからエントリを取得しそれを新しいエントリの配列にまとめることもできます
このゲームのダイアログではセッションのトランスクリプトの最初のエントリつまり指示を取得できますまた最後のエントリとして最後に成功した応答も取得できますそれを新しいセッションに渡すことでキャラクターはしばらくの間会話を続けられますただしセッションのトランスクリプトには最初のエントリとして初期の指示が含まれていますゲームキャラクターのトランスクリプトを引き継ぐ場合必ずその指示を含めることが重要です
トランスクリプトから特定の関連部分を選んで引き継ぐことでシンプルで効果的な解決策になる可能性がありますただし状況によってはそれほど単純ではありませんより多くのエントリを含むトランスクリプトを考えてみましょう必ず最初に指示を引き継ぐことから始める必要がありますトランスクリプトに関連性の高いエントリが多数含まれる可能性があるためこのようなケースではトランスクリプトを要約することも1つの方法です
外部ライブラリを利用して実行することもできますし場合によってはトランスクリプトの一部を要約するのに Foundation Modelを使用することもできます
これがセッションのトランスクリプトでできる処理です次に応答が実際にどのように生成されるかを簡単に見てみましょうこのゲームではバリスタに歩み寄るとプレイヤーはどんな質問でもできますしかし新たに2つのゲームを始めてそれぞれでまったく同じ質問をしてもおそらく返ってくる答えは異なるでしょうどんな仕組みでしょうかそこでサンプリングの出番です
モデルが出力を生成するときはトークンを1つずつ生成しますモデルは各トークンの出現確率の分布を作成することでこれを処理しますデフォルトでは Foundation Modelは一定の確率の範囲内でトークンを選択します時には「ああ」と言って始まることもあれば最初のトークンとして「ええと」を選択する場合もありますこの処理は生成されるすべてのトークンに対して発生しますこのトークンの選択がサンプリングと呼ばれるものですデフォルトの動作はランダムサンプリングです様々な出力が得られることはゲームなどのユースケースに最適です一方で決定論的な出力が必要な場合もあります例えば再現性が求められるデモを作成する場合などです GenerationOptions APIを使用するとサンプリング手法を制御できますこれを「greedy」に設定することで決定論的な出力が得られますこのように設定されていれば同じプロンプトには同じ出力が返されますただしセッションの状態も同じであることが前提ですさらにこの条件が成り立つのはオンデバイスモデルのバージョンが同じである場合のみです OSアップデートの一環としてモデルが更新されると同じプロンプトから異なる出力が生成される場合がありますサンプリングの設定を「greedy」にしてもですランダムサンプリングの「temperature」で出力を調整することもできます例えば temperatureを 0.5に設定すると出力の変化は小さくなりますこれをより高い値に設定すると同じプロンプトに対して大きく異なる出力が生成されますまたプロンプトでユーザー入力を受け取る際に未対応の言語である可能性もあります
このような場合は専用の unsupportedLanguageOrLocaleエラーを捕捉することで処理できますこれは UIにカスタムメッセージを表示するのに適した方法ですまたモデルが特定の言語に対応しているかどうかを確認するAPIもあります例えばユーザーの現在の言語に対応しているかどうかを確認し対応していない場合は注意書きを表示できます以上がセッションに関する概要ですプロンプトを入力すると履歴がトランスクリプトに保存されます必要に応じてサンプリングパラメータを設定してセッションの出力のランダム性を制御できますもっと凝ったものにしましょうプレイヤーが移動するときにNPC （非操作キャラクター）を生成できますここでもFoundation Modelを使用しますただし今回はより複雑な出力が必要です単なるテキストではなくNPCの名前やコーヒーの注文も生成したいと思いますこんなときにGenerableが役立ちます大規模言語モデルから構造化された出力を取得するのは困難な場合があります必要なフィールドを指定してプロンプトを作成しそれを抽出するための解析コードを用意することもできますただしこの方法は維持が難しく非常に脆弱です常に有効なキーが返されるとは限らないためメソッド全体が失敗する可能性があります幸い Foundation Modelには Generableと呼ばれる優れたAPIがあります構造体に@Generableマクロを適用できます Generableとは何でしょうか？実在する単語でしょうか？はい存在します
Generableはモデルが構造化データを簡単に生成できるようにする仕組みで Swiftの型を使用しますこのマクロはコンパイル時にスキーマを生成しモデルはそれを使用して期待される構造を生成しますこのマクロはイニシャライザも生成しますこれはセッションにリクエストを実行するときに自動的に呼び出されます
それではこの構造体のインスタンスを作成してみましょう前と同じようにセッションで応答メソッドを呼び出しますただし今回はgenerating引数を渡して生成する型をモデルに指示します Foundation Modelは Generable型の詳細をプロンプトに自動的に組み込みますその情報はモデルのトレーニングに使用された特定の形式に沿っています Generable型に含まれるフィールドをモデルに伝える必要はありませんこれによりゲームでは生成された魅力的なNPCの登場が実現します
Generableの機能は見た目以上に強力です低レベルの処理では制約付きデコーディングが使用されますこの手法によりモデルは特定のスキーマに沿ったテキストを生成できます先ほどのマクロが生成するスキーマを思い出してください前に説明したように LLMはトークンを生成しそれらが後でテキストに変換されます Generableを使用するとそのテキストは型安全な方法で自動的に解析されますトークンはループ処理で生成されこれは通常デコードループと呼ばれます制約付きデコーディングがなければモデルは誤って無効なフィールド名を生成する可能性があります「name」ではなく「firstName」などですその結果 NPC型への解析に失敗します
しかし制約付きデコーディングではモデルがこのような構造的なミスを犯すのを防ぐことができます生成される各トークンについてモデルの語彙にあるすべてのトークンの分布が存在します制約付きデコーディングは無効なトークンを除外することで機能します任意のトークンを選択するのではなくモデルはスキーマに従って有効なトークンのみを選択できます
モデルの出力を手動で解析する必要がないということですつまり本当に大切なことに時間を使うことができますコーヒーショップでバーチャルゲストと会話を楽しんだりできますね GenerableはオンデバイスのLLMから出力を取得するのに最適な方法ですさらに多くのこともできます構造体だけでなく列挙型でも使用できるのですそれを活用して私たちの出会いをよりダイナミックにしましょうここでは 2つのcaseを定義した Encounter列挙型を追加しましたこの列挙型のcaseには関連する値を格納することもできますこの仕組みを使ってコーヒーの注文を生成するかまたは店長と話したがっているキャラクターを作成してみましょう
それではこのゲームで何に遭遇するか確認してみましょう
あー誰かが本当にコーヒーを飲みたがっていますね
当然ですがすべてのお客様が簡単に対応できるとは限りませんそこで NPCにレベルを導入してこれをレベルアップしてみましょう Generableは Intを含む一般的なSwiftの型のほとんどを直接サポートしていますそれでは levelプロパティを追加しましょうただし整数を生成したいわけではありませんレベルを特定の範囲に限定したい場合は Guideを使用してこれを指定できますプロパティでGuideマクロを使用して範囲を渡すことができますここでもモデルは制約付きデコーディングを使用して値がこの範囲内になるよう保証します
この機会に NPCに属性の配列も追加しましょう
再びGuideを使用できますが今回は NPCのこの配列に正確に 3つの属性が必要であることを指定します覚えておいてください Generable型のプロパティはソースコードで宣言されている順序で生成されますここでは最初にnameが生成され次にlevel その次にattributes 最後にencounterです
この順序は重要な場合がありますプロパティの値が別のプロパティの影響を受けることを想定している場合などですプロパティごとのストリーム処理を行うこともできるので完全な出力が生成されるまで待たずに処理する場合に便利ですこれでゲームはかなり楽しくなりました友人と共有する準備がほぼ整いましたしかし NPCの名前が考えていたものと少し違っていることに気づきました私は名前と姓の両方を使いたいのです
これにはガイドを使用できますただし今回は自然言語の説明を指定します
名前は「フルネーム」にするように指定できますこれは事実上別のプロンプト入力の方法ですプロンプトで個々のプロパティを記述する代わりに Generable型で直接指定できますこれによりモデルはこれらの記述の関連性をより強く認識できますゲーム内を歩き回ってみると新しい名前が実際に使用されているのを確認できますここで様々な型に適用できるすべてのガイドの概要を示します
intなどの一般的な数値型では最小値、最大値、範囲を指定できますまた配列を使用すると個数を制御したり配列の要素型でガイドを指定したりできます
文字列の場合 anyOfを使用してモデルに配列から選択させたり正規表現パターンに制約することもできます
正規表現パターンのガイドは特に強力ですテキストとの照合に正規表現を使用するのはおなじみかもしれませんしかし Foundation Modelでは正規表現パターンを使用して生成する文字列の構造を定義できます例えば名前を特定の接頭辞のセットに制限できますまた正規表現ビルダーの構文を使用することもできます
これで改めて正規表現への興味がわいたなら時代を越えて名作となった数年前の「Meet Swift Regex」をご参照ください要約すると Generableは構造体と列挙型に適用できるマクロでモデルから構造化された出力を取得する信頼性の高い方法を提供します出力を解析する必要はなくさらに具体的な出力を取得するにはプロパティにガイドを適用できますつまり Generableはコンパイル時に構造が確定している場合に最適ですこのマクロはスキーマを自動生成し指定した型のインスタンスを出力として返しますしかし実行時に初めて構造が判明するという場合もありますそこで役立つのが動的スキーマですゲームにレベルクリエーターを追加してプレイヤーがゲーム内を歩き回る際に遭遇するエンティティを動的に定義できるようにしています例えばプレイヤーは謎解きの構造を作成できますその謎解きには質問と多肢選択式の答えがありますコンパイル時にこの構造がわかっていれば Generable構造体を定義するだけで済みますしかしレベルクリエーターではプレイヤーが思いつくあらゆる構造を作成できます
DynamicGenerationSchemaを使用することで実行時にスキーマを作成できますコンパイル時に定義される構造体と同様に動的スキーマにもプロパティのリストがありますレベルクリエーターを追加してプレイヤーの入力を受け取ることができます
各プロパティには名前とその型を定義する独自のスキーマがありますスキーマはあらゆるGenerable型に使用できこれには組み込み型も含まれます Stringなどです
動的スキーマには配列を含めることができここで配列の要素のスキーマを指定します重要なのは動的スキーマは他の動的スキーマへの参照を持つことができる点ですそのためここでは配列は実行時に定義されるカスタムスキーマを参照できます
ユーザーの入力から 2つのプロパティを持つ謎解きのスキーマを作成できます 1つ目はquestionでこれは文字列プロパティです次に Answerというカスタム型の配列プロパティですでは答えを作成してみましょうこれには文字列とブール値のプロパティがあります謎解きのanswersプロパティはその名前で解答スキーマを参照しています次に DynamicGenerationSchemaのインスタンスを作成できます各動的スキーマは独立していますつまり謎解きの動的スキーマは実際には解答の動的スキーマを含んでいません推論を開始する前にまず動的スキーマを検証済みスキーマに変換する必要がありますこのとき動的スキーマに不整合があるとエラーが発生します型参照が存在しないなどです
検証済みのスキーマが得られたら通常どおりセッションのプロンプトを入力できますただし今回は出力の型が GeneratedContentインスタンスですこれは動的な値を保持していますこれは動的スキーマのプロパティ名を使用して照会できますここでも Foundation Modelはガイド付き生成を使用して出力がスキーマと一致することを確認します想定外のフィールドが生成されることはありません動的ではあっても出力を手動で解析することを心配する必要はありません
これでプレイヤーがNPCに遭遇するとモデルはこの動的コンテンツを生成できますこれを動的UIで表示します私たちが遭遇したものを確認してみましょう私は暗くも明るくも苦くも甘くもなります人を目覚めさせ温かさをもたらします私は何でしょう？コーヒーかホットチョコレート答えはコーヒーだと思います正解ですプレイヤーは様々な楽しいレベルを作れるのでとても楽しいと思います要約すると Generableマクロを使用すればコンパイル時に定義されるSwiftの型から構造化された出力を簡単に生成できます内部では Foundation Modelがスキーマを管理し GeneratedContentを独自の型のインスタンスに変換します動的スキーマは非常によく似た仕組みですがさらに細かい制御ができますスキーマは完全に実行時に制御でき GeneratedContentに直接アクセスすることができます次にツール呼び出しを見てみましょうこれによりモデルがユーザー独自の関数を呼び出せるようになります私はDLCの作成を考えていますダウンロードコンテンツによってゲームに個人的な要素を追加するためですツール呼び出しを使用するとモデルは自律的に情報を取得できますプレイヤーの連絡先とカレンダーを統合すれば本当に楽しくなると思います通常サーバベースのモデルではそのようなことはしませんプレイヤーはゲームが個人データをアップロードすることを喜ばないでしょうしかし Foundation Modelではすべてがオンデバイスで処理されるためプライバシーを保護しながらこれを実現できます
Toolプロトコルを使用すればツールの定義は非常に簡単ですまず名前と説明を指定しますこれは APIによって自動的にプロンプトに挿入されこれを基にモデルは適切なタイミングと頻度でツールを呼び出します
ツール名は短く英語のテキストとして読みやすいものにすることをお勧めします略語を避け説明は簡潔にまとめ実装の詳細を含めないでくださいなぜならこれらの文字列はプロンプトにそのまま入力されるからです文字列が長くなるほどトークンが多くなりレイテンシーが増加する可能性があります代わりに名前に動詞を含めることを検討してください findContactのようにしますまた説明は1文程度にしてくださいいつものように様々なバリエーションを試して自分のツールに最適なものを確認することが重要です
次にツールの入力を定義しますこのツールでミレニアル世代など特定の世代と連絡を取りたいと考えていますモデルはゲームの状態に基づいて面白いケースを選ぶことができますが Arguments構造体を追加してそれを Generableにすることができますモデルがこのツールを呼び出すことを決定すると入力引数が生成されます Generableを使用することでツールが常に有効な入力引数を取得することが保証されますしたがってモデルが異なる世代例えばゲームで対象外のアルファ世代などは生成されません
次に呼び出し関数を実装しますモデルはツールを呼び出すことを決定したときにこの関数を呼び出しますこの例では次にContacts APIを呼び出しますそのクエリに対して連絡先の名前を返します
ツールを使用するにはそれをセッションイニシャライザに渡しますその後モデルは追加の情報が必要なときにツールを呼び出しますこれは単に自分で連絡先を取得するよりも強力ですモデルは特定のNPCに必要な場合にのみツールを呼び出しまたゲームの状態に基づいておもしろい入力引数を選択できます NPCの年齢世代などです
これは通常のContacts APIを使用しているのでよくご存知かもしれませんこのツールは最初に呼び出されたときにプレイヤーに通常の許可を求めますプレイヤーが連絡先へのアクセスを許可しなくても Foundation Modelは以前と同じようにコンテンツを生成できますがアクセスが許可されるとより個人的な内容にすることができます
別のNPCに遭遇するまでゲーム内を少し歩き回ってみましょう今回は連絡先から名前が取得されますこんにちは Naomy Naomyが何を言うか聞いてみましょう
君がコーヒー好きだったとはね LanguageModelSessionはツールのインスタンスを受け取りますこれはツールのライフサイクルを制御することを意味しますこのツールのインスタンスはセッション全体で変わりませんこの例では FindContactsToolでランダムなキャラクターを取得しているだけなので時々同じ連絡先を取得する可能性があります現在このゲームでは Naomyが複数いますそれは正しくありませんたった1人しかいないのですからこれを修正するためにゲームですでに使用された連絡先を追跡できます FindContactToolに状態を追加できますそのためにまずFindContactToolをクラスに変換しますこれにより呼び出しメソッドから状態を変更できますこれで選択された連絡先を追跡できこのcallメソッドでは同じものは再度選択しません
NPCの名前は私の連絡先に基づいていますしかし NPCとの会話はまだ不自然です最後にもう1つツールを紹介しましょう今度はカレンダーへのアクセス用ツールです
このツールでは連絡先の名前を渡す際にゲーム内で続行中のダイアログから取得しますモデルがこのツールを呼び出すときにこの連絡先とのイベントを取得するための日付（年月日）を生成しますこのツールをセッション内で NPCとのダイアログに渡します
そこで友人のNaomyのNPCに「What’s going on?」と尋ねると NPCは私たちが一緒に計画している実際のイベントを答えることができます
うわー本物のNaomyと会話しているみたいです
ツール呼び出しの仕組みを詳しく見てみましょうセッションの冒頭でツールを渡すことから始めます指示も一緒に渡しますこの例では今日の日付などの情報を含めますその後ユーザーがセッションにプロンプトを入力するとモデルはテキストを分析しますこの例ではモデルはプロンプトがイベントを求めていることを理解しておりカレンダーツールの呼び出しは妥当です
このツールを呼び出すためにモデルは最初に入力引数を生成しますこの場合モデルはイベントを取得する日付を生成する必要がありますモデルは指示やプロンプトからの情報を関連付けてそれに基づいてツールの引数を適切に補完することができますつまりこの例では tomorrowの意味を推論する際に指示にある今日の日付が使用されますツールの入力が生成されると callメソッドが呼び出されますいよいよ見せ場ですツールは必要に応じてあらゆる処理ができますただしセッションはツールの処理結果が返されるまで待機しそれまで他の出力を生成しません
ツールの出力はその後トランスクリプトに記録されますこれはモデルからの出力と同様ですまたツールの出力に基づいてモデルはプロンプトに対する応答を生成できますツールは 1つのリクエストに対して複数回呼び出される可能性がありますそのような場合ツールは並列に呼び出されますツールのcallメソッドからデータにアクセスするときはこれに注意してくださいとても楽しかったですねこのゲームはランダムなコンテンツの生成に私の個人的な連絡先とカレンダーの情報を利用しています私のデータがデバイスから外部に送信されることはありません要約するとツール呼び出しによってモデルはリクエスト中に外部データにアクセスするコードを実行できますこれは連絡先などの個人情報である場合もあれば Web上のソースからの外部データである場合もありますツールは特定のリクエスト内で複数回呼び出される可能性がありますモデルはそのコンテキストに基づいてこれを決定しますツールは並列で呼び出すこともでき状態を格納することもできます沢山ありますねとりあえずコーヒーでも飲んでから次に進みましょう詳細を学ぶにはプロンプトエンジニアリングに関する専用のビデオを確認してください設計や安全性のヒントも含まれていますまた本物のNaomyに会いたい場合はコード解説付きのビデオを確認してください私のように皆さんもFoundation Modelで楽しんでいただければ幸いですありがとうございました

import FoundationModels

func respond(userInput: String) async throws -> String {
  let session = LanguageModelSession(instructions: """
    You are a friendly barista in a world full of pixels.
    Respond to the player’s question.
    """
  )
  let response = try await session.respond(to: userInput)
  return response.content
}

3:37 - Handle context size errors

var session = LanguageModelSession()

do {
  let answer = try await session.respond(to: prompt)
  print(answer.content)
} catch LanguageModelSession.GenerationError.exceededContextWindowSize {
  // New session, without any history from the previous session.
  session = LanguageModelSession()
}

3:55 - Handling context size errors with a new session

var session = LanguageModelSession()

do {
  let answer = try await session.respond(to: prompt)
  print(answer.content)
} catch LanguageModelSession.GenerationError.exceededContextWindowSize {
  // New session, with some history from the previous session.
  session = newSession(previousSession: session)
}

private func newSession(previousSession: LanguageModelSession) -> LanguageModelSession {
  let allEntries = previousSession.transcript.entries
  var condensedEntries = [Transcript.Entry]()
  if let firstEntry = allEntries.first {
    condensedEntries.append(firstEntry)
    if allEntries.count > 1, let lastEntry = allEntries.last {
      condensedEntries.append(lastEntry)
    }
  }
  let condensedTranscript = Transcript(entries: condensedEntries)
  // Note: transcript includes instructions.
  return LanguageModelSession(transcript: condensedTranscript)
}

6:14 - Sampling

// Deterministic output
let response = try await session.respond(
  to: prompt,
  options: GenerationOptions(sampling: .greedy)
)
                
// Low-variance output
let response = try await session.respond(
  to: prompt,
  options: GenerationOptions(temperature: 0.5)
)
                
// High-variance output
let response = try await session.respond(
  to: prompt,
  options: GenerationOptions(temperature: 2.0)
)

7:06 - Handling languages

var session = LanguageModelSession()

do {
  let answer = try await session.respond(to: userInput)
  print(answer.content)
} catch LanguageModelSession.GenerationError.unsupportedLanguageOrLocale {
  // Unsupported language in prompt.
}

let supportedLanguages = SystemLanguageModel.default.supportedLanguages
guard supportedLanguages.contains(Locale.current.language) else {
  // Show message
  return
}

8:14 - Generable

@Generable
struct NPC {
  let name: String
  let coffeeOrder: String
}

func makeNPC() async throws -> NPC {
  let session = LanguageModelSession(instructions: ...)
  let response = try await session.respond(generating: NPC.self) {
    "Generate a character that orders a coffee."
  }
  return response.content
}

9:22 - NPC

@Generable
struct NPC {
  let name: String
  let coffeeOrder: String
}

10:49 - Generable with enum

@Generable
struct NPC {
  let name: String
  let encounter: Encounter

  @Generable
  enum Encounter {
    case orderCoffee(String)
    case wantToTalkToManager(complaint: String)
  }
}

11:20 - Generable with guides

@Generable
struct NPC {
  @Guide(description: "A full name")
  let name: String
  @Guide(.range(1...10))
  let level: Int
  @Guide(.count(3))
  let attributes: [Attribute]
  let encounter: Encounter

  @Generable
  enum Attribute {
    case sassy
    case tired
    case hungry
  }
  @Generable
  enum Encounter {
    case orderCoffee(String)
    case wantToTalkToManager(complaint: String)
  }
}

13:40 - Regex guide

@Generable
struct NPC {
  @Guide(Regex {
    Capture {
      ChoiceOf {
        "Mr"
        "Mrs"
      }
    }
    ". "
    OneOrMore(.word)
  })
  let name: String
}

session.respond(to: "Generate a fun NPC", generating: NPC.self)
// > {name: "Mrs. Brewster"}

14:50 - Generable riddle

@Generable
struct Riddle {
  let question: String
  let answers: [Answer]

  @Generable
  struct Answer {
    let text: String
    let isCorrect: Bool
  }
}

15:10 - Dynamic schema

struct LevelObjectCreator {
  var properties: [DynamicGenerationSchema.Property] = []

  mutating func addStringProperty(name: String) {
    let property = DynamicGenerationSchema.Property(
      name: name,
      schema: DynamicGenerationSchema(type: String.self)
    )
    properties.append(property)
  }

  mutating func addArrayProperty(name: String, customType: String) {
    let property = DynamicGenerationSchema.Property(
      name: name,
      schema: DynamicGenerationSchema(
        arrayOf: DynamicGenerationSchema(referenceTo: customType)
      )
    )
    properties.append(property)
  }
  
  var root: DynamicGenerationSchema {
    DynamicGenerationSchema(
      name: name,
      properties: properties
    )
  }
}

var riddleBuilder = LevelObjectCreator(name: "Riddle")
riddleBuilder.addStringProperty(name: "question")
riddleBuilder.addArrayProperty(name: "answers", customType: "Answer")

var answerBuilder = LevelObjectCreator(name: "Answer")
answerBuilder.addStringProperty(name: "text")
answerBuilder.addBoolProperty(name: "isCorrect")

let riddleDynamicSchema = riddleBuilder.root
let answerDynamicSchema = answerBuilder.root

let schema = try GenerationSchema(
  root: riddleDynamicSchema,
  dependencies: [answerDynamicSchema]
)

let session = LanguageModelSession()
let response = try await session.respond(
  to: "Generate a fun riddle about coffee",
  schema: schema
)
let generatedContent = response.content
let question = try generatedContent.value(String.self, forProperty: "question")
let answers = try generatedContent.value([GeneratedContent].self, forProperty: "answers")

18:47 - FindContactTool

import FoundationModels
import Contacts

struct FindContactTool: Tool {
  let name = "findContact"
  let description = "Finds a contact from a specified age generation."
    
  @Generable
  struct Arguments {
    let generation: Generation
        
    @Generable
    enum Generation {
      case babyBoomers
      case genX
      case millennial
      case genZ            
    }
  }
  
  func call(arguments: Arguments) async throws -> ToolOutput {
    let store = CNContactStore()
        
    let keysToFetch = [CNContactGivenNameKey, CNContactBirthdayKey] as [CNKeyDescriptor]
    let request = CNContactFetchRequest(keysToFetch: keysToFetch)

    var contacts: [CNContact] = []
    try store.enumerateContacts(with: request) { contact, stop in
      if let year = contact.birthday?.year {
        if arguments.generation.yearRange.contains(year) {
          contacts.append(contact)
        }
      }
    }
    guard let pickedContact = contacts.randomElement() else {
      return ToolOutput("Could not find a contact.")
    }
    return ToolOutput(pickedContact.givenName)
  }
}

20:26 - Call FindContactTool

import FoundationModels

let session = LanguageModelSession(
  tools: [FindContactTool()],
  instructions: "Generate fun NPCs"
)

21:55 - FindContactTool with state

import FoundationModels
import Contacts

class FindContactTool: Tool {
  let name = "findContact"
  let description = "Finds a contact from a specified age generation."
   
  var pickedContacts = Set<String>()
    
  ...

  func call(arguments: Arguments) async throws -> ToolOutput {
    contacts.removeAll(where: { pickedContacts.contains($0.givenName) })
    guard let pickedContact = contacts.randomElement() else {
      return ToolOutput("Could not find a contact.")
    }
    return ToolOutput(pickedContact.givenName)
  }
}

22:27 - GetContactEventTool

import FoundationModels
import EventKit

struct GetContactEventTool: Tool {
  let name = "getContactEvent"
  let description = "Get an event with a contact."

  let contactName: String
    
  @Generable
  struct Arguments {
    let day: Int
    let month: Int
    let year: Int
  }
    
  func call(arguments: Arguments) async throws -> ToolOutput { ... }
}

関連する章

リソース

関連ビデオ

WWDC25