View in English

  • Apple Developer
    • Get Started

    Explore Get Started

    • Overview
    • Learn
    • Apple Developer Program

    Stay Updated

    • Latest News
    • Hello Developer
    • Platforms

    Explore Platforms

    • Apple Platforms
    • iOS
    • iPadOS
    • macOS
    • tvOS
    • visionOS
    • watchOS
    • App Store

    Featured

    • Design
    • Distribution
    • Games
    • Accessories
    • Web
    • Home
    • CarPlay
    • Technologies

    Explore Technologies

    • Overview
    • Xcode
    • Swift
    • SwiftUI

    Featured

    • Accessibility
    • App Intents
    • Apple Intelligence
    • Games
    • Machine Learning & AI
    • Security
    • Xcode Cloud
    • Community

    Explore Community

    • Overview
    • Meet with Apple events
    • Community-driven events
    • Developer Forums
    • Open Source

    Featured

    • WWDC
    • Swift Student Challenge
    • Developer Stories
    • App Store Awards
    • Apple Design Awards
    • Apple Developer Centers
    • Documentation

    Explore Documentation

    • Documentation Library
    • Technology Overviews
    • Sample Code
    • Human Interface Guidelines
    • Videos

    Release Notes

    • Featured Updates
    • iOS
    • iPadOS
    • macOS
    • watchOS
    • visionOS
    • tvOS
    • Xcode
    • Downloads

    Explore Downloads

    • All Downloads
    • Operating Systems
    • Applications
    • Design Resources

    Featured

    • Xcode
    • TestFlight
    • Fonts
    • SF Symbols
    • Icon Composer
    • Support

    Explore Support

    • Overview
    • Help Guides
    • Developer Forums
    • Feedback Assistant
    • Contact Us

    Featured

    • Account Help
    • App Review Guidelines
    • App Store Connect Help
    • Upcoming Requirements
    • Agreements and Guidelines
    • System Status
  • Quick Links

    • Events
    • News
    • Forums
    • Sample Code
    • Videos
 

Videos

Abrir menú Cerrar menú
  • Colecciones
  • Todos los videos
  • Información

Más videos

  • Información
  • Resumen
  • Código
  • Lee documentos con la estructura Vision

    Conoce los últimos avances en la estructura Vision. Presentaremos RecognizeDocumentsRequest y cómo usarlo para leer líneas de texto y agruparlas en párrafos, leer tablas, etc. También profundizaremos en la detección de manchas en el lente de la cámara y cómo identificar imágenes potencialmente manchadas en fototecas o en tu propio canal de tomas fotográficas.

    Capítulos

    • 0:00 - Introducción
    • 1:22 - Lectura de documentos
    • 13:35 - Detección de manchas en el lente de la cámara
    • 17:59 - Actualización de la postura de la mano

    Recursos

    • Recognizing tables within a document
    • Classifying Images with Vision and Core ML
    • Image Classification with Vision and CoreML
    • Vision
      • Video HD
      • Video SD

    Videos relacionados

    WWDC25

    • Descubre las estructuras de aprendizaje automático e IA en las plataformas de Apple

    WWDC24

    • Discover Swift enhancements in the Vision framework

    WWDC23

    • Detect animal poses in Vision
    • Explore 3D body pose and person segmentation in Vision
  • Buscar este video…
    • 6:39 - Detect tables

      /// Process an image and return the first table detected
      func extractTable(from image: Data) async throws -> DocumentObservation.Container.Table {
          
          // The Vision request.
          let request = RecognizeDocumentsRequest()
          
          // Perform the request on the image data and return the results.
          let observations = try await request.perform(on: image)
      
          // Get the first observation from the array.
          guard let document = observations.first?.document else {
              throw AppError.noDocument
          }
          
          // Extract the first table detected.
          guard let table = document.tables.first else {
              throw AppError.noTable
          }
          
          return table
      }
    • 10:50 - Parse contacts

      /// Extract name, email addresses, and phone number from a table into a list of contacts.
      private func parseTable(_ table: DocumentObservation.Container.Table) -> [Contact] {
          var contacts = [Contact]()
          
          // Iterate over each row in the table.
          for row in table.rows {
              // The contact name will be taken from the first column.
              guard let firstCell = row.first else {
                  continue
              }
              // Extract the text content from the transcript.
              let name = firstCell.content.text.transcript
              
              // Look for emails and phone numbers in the remaining cells.
              var detectedPhone: String? = nil
              var detectedEmail: String? = nil
              
              for cell in row.dropFirst() {
                  // Get all detected data in the cell, then match emails and phone numbers.
                  let allDetectedData = cell.content.text.detectedData
                  for data in allDetectedData {
                      switch data.match.details {
                      case .emailAddress(let email):
                          detectedEmail = email.emailAddress
                      case .phoneNumber(let phoneNumber):
                          detectedPhone = phoneNumber.phoneNumber
                      default:
                          break
                      }
                  }
              }
              // Create a contact if an email was detected.
              if let email = detectedEmail {
                  let contact = Contact(name: name, email: email, phoneNumber: detectedPhone)
                  contacts.append(contact)
              }
          }
          return contacts
      }
    • 0:00 - Introducción
    • La estructura Vision proporciona las API para integrar el aprendizaje automático en apps en varias plataformas de Apple. Con estas API se pueden realizar tareas como detección de personas y objetos, seguimiento posicional y análisis de trayectorias, todo ello ejecutándose en el dispositivo para lograr un rendimiento y una seguridad óptimos. La estructura actualmente incluye 31 API, con dos nuevas incorporaciones para la lectura de documentos y la detección de manchas en el lente de la cámara, y una actualización para el reconocimiento de la postura de la mano.

    • 1:22 - Lectura de documentos
    • Hay una nueva API llamada “RecognizeDocumentsRequest” que se basa en la funcionalidad existente “RecognizeTextRequest”, con la cual puedes extraer información estructurada de los documentos. Con “RecognizeDocumentsRequest”, ahora puedes procesar imágenes y obtener una estructura jerárquica del contenido del documento. La API puede detectar varios elementos, como tablas, listas, párrafos y códigos legibles por máquinas como códigos QR. Se trata de mucho más que extraer texto; detecta el formato del texto, así es mucho más fácil analizar e interpretar los datos. Por ejemplo, piensa en una hoja de registro con nombres, direcciones de correo electrónico y números de teléfono. Antes, el proceso para extraer esta información era complejo y requería la determinación manual de las relaciones de celda. Sin embargo, con 'RecognizeDocumentsRequest', el sistema analiza automáticamente la tabla y agrupa las celdas en filas, simplificando el proceso de creación de contactos a partir de la hoja escaneada.

    • 13:35 - Detección de manchas en el lente de la cámara
    • La nueva funcionalidad de Vision de detección de manchas en el lente de la cámara, “DetectLensSmudgeRequest”, reconoce imágenes manchadas con un puntaje de confianza entre 0 y 1. Puedes establecer umbrales para filtrar imágenes de mala calidad; los valores de confianza más altos indican una imagen falsa. Los umbrales más altos procesan más imágenes, pero pueden incluir las de menor calidad, mientras que los umbrales más bajos rechazan más imágenes, e incluyen potencialmente las de buena calidad. Factores como el desenfoque por movimiento de la cámara, la exposición prolongada, las nubes o la niebla a veces pueden provocar falsos positivos. Además, Vision ofrece otras API para evaluar la calidad de la imagen, como “DetectFaceCaptureQualityRequest” para imágenes con rostros y “CalculateImageAestheticScoresRequest” para imágenes sin rostros, como documentos o recibos.

    • 17:59 - Actualización de la postura de la mano
    • La estructura Vision también tiene un modelo actualizado de reconocimiento de la postura de la mano. El original, disponible desde 2020, identifica 21 articulaciones de una mano para el reconocimiento de gestos en apps. El nuevo modelo es más pequeño, rápido y preciso, pero usa ubicaciones de las articulaciones distintas, por lo que hay que volver a entrenar los clasificadores existentes.

Developer Footer

  • Videos
  • WWDC25
  • Lee documentos con la estructura Vision
  • Open Menu Close Menu
    • iOS
    • iPadOS
    • macOS
    • tvOS
    • visionOS
    • watchOS
    • App Store
    Open Menu Close Menu
    • Swift
    • SwiftUI
    • Swift Playground
    • TestFlight
    • Xcode
    • Xcode Cloud
    • Icon Composer
    • SF Symbols
    Open Menu Close Menu
    • Accessibility
    • Accessories
    • Apple Intelligence
    • Audio & Video
    • Augmented Reality
    • Business
    • Design
    • Distribution
    • Education
    • Games
    • Health & Fitness
    • In-App Purchase
    • Localization
    • Maps & Location
    • Machine Learning & AI
    • Security
    • Safari & Web
    Open Menu Close Menu
    • Documentation
    • Downloads
    • Sample Code
    • Videos
    Open Menu Close Menu
    • Help Guides & Articles
    • Contact Us
    • Forums
    • Feedback & Bug Reporting
    • System Status
    Open Menu Close Menu
    • Apple Developer
    • App Store Connect
    • Certificates, IDs, & Profiles
    • Feedback Assistant
    Open Menu Close Menu
    • Apple Developer Program
    • Apple Developer Enterprise Program
    • App Store Small Business Program
    • MFi Program
    • Mini Apps Partner Program
    • News Partner Program
    • Video Partner Program
    • Security Bounty Program
    • Security Research Device Program
    Open Menu Close Menu
    • Meet with Apple
    • Apple Developer Centers
    • App Store Awards
    • Apple Design Awards
    • Apple Developer Academies
    • WWDC
    Read the latest news.
    Get the Apple Developer app.
    Copyright © 2026 Apple Inc. All rights reserved.
    Terms of Use Privacy Policy Agreements and Guidelines