Core ML 모델
Core ML을 위해 마련된 리서치 커뮤니티의 머신 러닝 모델로 앱에 인텔리전스를 구축해 보세요.
Core ML을 위해 마련된 리서치 커뮤니티의 머신 러닝 모델로 앱에 인텔리전스를 구축해 보세요.
모델은 Core ML 형식으로, Xcode 프로젝트에 통합할 수 있습니다. 다양한 버전의 모델을 선택하여 크기와 아키텍처에 맞게 최적화할 수 있습니다.
이미지
이미지 분류
카메라 프레임이나 이미지 속의 주요 물체를 분류하도록 학습된 Fast Hybrid Vision Transformer 아키텍처입니다.
세부사항 보기
FastViT는 ImageNet 데이터세트를 학습한 범용 하이브리드 비전 트랜스포머 모델로, 최첨단 정확도/지연 시간 트레이드오프를 제공합니다.
이 모델은 다음과 같은 3가지 신규 아키텍처 전략을 통해 고성능, 짧은 지연 시간, 강력한 OOD(Out-Of-Distribution) 샘플 대응을 선보입니다.
FastViT는 이미지 분류, 물체 탐지, 시맨틱 세분화, 3D 메시 회귀 등 다양한 컴퓨터 비전 작업 전반에 걸쳐 모바일 및 데스크탑 GPU 플랫폼 기반의 강력한 경쟁업체 아키텍처보다 더 우수한 성능을 지속적으로 제공합니다.
이미지 분류, 물체 탐지, 시맨틱 세분화, 3D 메시 회귀
변형 | 매개변수 | 크기 | 가중치 정밀도 | 활성화 정밀도 |
---|---|---|---|---|
T8 | 3.6M | 7.8 | Float16 | Float16 |
MA36 | 42.7M | 84 | Float16 | Float16 |
변형 | 기기 | OS | 추론 시간(ms) | 컴퓨팅 장치 |
---|---|---|---|---|
T8 F16 | iPhone 15 Pro Max | 17.6 | 0.67 | 전체 |
T8 F16 | iPhone 15 Plus | 17.6 | 0.73 | 전체 |
T8 F16 | iPhone 14 Plus | 17.6 | 0.82 | 전체 |
T8 F16 | iPhone 13 Pro Max | 17.6 | 0.83 | 전체 |
T8 F16 | MacBook Pro M3 Max | 14.4 | 0.62 | 전체 |
MA36 F16 | iPhone 15 Pro Max | 17.6 | 3.33 | 전체 |
MA36 F16 | iPhone 15 Plus | 17.6 | 3.47 | 전체 |
MA36 F16 | iPhone 14 Plus | 17.6 | 4.56 | 전체 |
MA36 F16 | iPhone 13 Pro Max | 17.6 | 4.47 | 전체 |
MA36 F16 | MacBook Pro M2 Max | 15.0 | 2.94 | 전체 |
MA36 F16 | MacBook Pro M1 Max | 15.0 | 4 | 전체 |
MA36 F16 | iPad Pro 5세대 | 17.5 | 3.35 | 전체 |
Vision 프레임워크를 사용하여 사진을 사전 처리하고 Core ML 모델로 이를 분류합니다.
이미지
심도 측정
Depth Anything 모델이 단안 심도 측정을 수행합니다.
세부사항 보기
Depth Anything v2는 단안 심도 측정을 위한 기반 모델입니다. 강력한 데이터 큐레이션 엔진과 teacher-student 파이프라인을 더욱 정교하게 개선하여 기존 Depth Anything의 강점은 유지하고 약점은 개선합니다.
Depth Anything v2는 teacher 모델을 학습시키기 위해 컴퓨터가 생성한 순수한 합성 이미지를 사용합니다. 이렇게 하면 실제 이미지를 사용할 경우 노이즈가 많은 어노테이션과 낮은 해상도로 인해 단안 심도 측정 모델 성능이 제한될 수 있는 문제가 방지됩니다. teacher 모델은 레이블이 지정되지 않은 실제 이미지에서 심도 정보를 예측한 다음, 의사(pseudo) 레이블이 지정된 새로운 데이터만 사용하여 student 모델을 학습시킵니다. 이렇게 하면 합성 이미지와 실제 이미지 간의 분포 변화를 방지하는 데 도움이 됩니다.
심도 측정 작업에서 Depth Anything v2 모델은 v1을 최적화하며, 특히 강력함, 추론 속도, 그리고 세밀한 세부사항, 투명한 물체, 반사, 복잡한 장면 같은 이미지 심도 속성 면에서 v1보다 더 우수한 성능을 제공합니다. 더욱 정교해진 데이터 큐레이션 접근 방식 덕분에 표준 데이터세트(KITTI, NYU-D, Sintel, ETH3D, DIODE 포함)에서 뛰어난 성능을 발휘하며, 심도 측정을 위해 구축된 새로운 DA-2k 평가 세트에서 v1 및 기타 커뮤니티 모델에 비해 정확도가 9% 이상 향상되었습니다.
Depth Anything v2는 다양한 모델 크기와 추론 효율성을 제공하여 광범위한 애플리케이션을 지원하며, 다운스트림 작업까지 세부 조정할 수 있도록 일반화가 가능합니다. 이는 3D 재구성, 내비게이션, 자율 주행, 이미지 또는 비디오 생성 등 심도 측정이 필요한 모든 애플리케이션에서 사용할 수 있습니다.
심도 측정, 시맨틱 세분화
변형 | 매개변수 | 크기 | 가중치 정밀도 | 활성화 정밀도 |
---|---|---|---|---|
F32 | 24.8M | 99.2 | Float32 | Float32 |
F16 | 24.8M | 49.8 | Float16 | Float16 |
변형 | 기기 | OS | 추론 시간(ms) | 컴퓨팅 장치 |
---|---|---|---|---|
Small F16 | iPhone 15 Pro Max | 17.4 | 33.90 | 전체 |
Small F16 | MacBook Pro M1 Max | 15.0 | 33.48 | 전체 |
Small F16 | MacBook Pro M1 Max | 15.0 | 32.78 | GPU |
이미지
시맨틱 세분화
물체 탐지 및 팬옵틱 세분화를 위해 학습되었으며 시맨틱 세분화 마스크를 반환하도록 구성된 DETR(DEtection TRansformer) 모델입니다.
세부사항 보기
DETR 모델은 COCO 2017 데이터세트를 학습한 컨볼루션 백본이 있는 인코더/디코더 트랜스포머입니다. 검증된 ML 전략 세트를 혼합하여 표준 물체 탐지기와 동일한 수준의 성능을 제공하는 동시에, 표준 물체 탐지기보다 더 원활하게 이미지에서 물체를 탐지 및 분류합니다.
모델은 예측된 물체와 실제 물체 간의 이분 매칭을 수행하는 손실 함수를 사용하여 학습됩니다. DETR은 추론 시 이미지에 전역적으로 셀프 어텐션을 적용하여 모든 물체를 한 번에 예측합니다. 전역적 어텐션 덕분에, 이 모델은 큰 물체에 대해서는 표준 물체 탐지기보다 더 우수한 성능을 발휘하지만 작은 물체에 대해서는 더 낮은 성능을 제공합니다. 이러한 제한 사항에도 불구하고, DETR은 까다로운 COCO 데이터세트에서 평가할 때 매우 최적화된 기타 아키텍처와 동등한 수준의 정확도와 런타임 성능을 보여 줍니다.
DETR은 표준 CNN 및 트랜스포머 클래스를 포함하는 모든 프레임워크에서 쉽게 재현될 수 있습니다. 또한 더 복잡한 작업을 지원하도록 쉽게 일반화할 수 있습니다. 예를 들면, 팬옵틱 세분화 및 사전 학습된 DETR을 기반으로 학습된 간단한 세분화 헤드가 필요한 기타 작업 등입니다.
DETR은 기존 아키텍처에서 허용 가능한 성능을 구현하기 위해 필요한 번거로운 대리 작업과 수작업으로 설계된 구성요소를 방지하며, 그 대신에 개념적으로 간단하고 쉽게 재현할 수 있는 접근 방식을 제공하여 물체 탐지 파이프라인을 간소화합니다.
물체 탐지, 팬옵틱 세분화
변형 | 매개변수 | 크기 | 가중치 정밀도 | 활성화 정밀도 |
---|---|---|---|---|
F32 | 43M | 171 | Float32 | Float32 |
F16 | 43M | 86 | Float16 | Float16 |
변형 | 기기 | OS | 추론 시간(ms) | 컴퓨팅 장치 |
---|---|---|---|---|
F16 | iPhone 15 Pro Max | 17.6 | 39 | 전체 |
F16 | iPhone 15 Plus | 17.6 | 43 | 전체 |
F16 | iPhone 14 Plus | 17.6 | 50 | 전체 |
F16 | iPhone 14 | 17.5 | 51 | 전체 |
F16 | iPhone 13 Pro Max | 17.6 | 51 | 전체 |
F16 | MacBook Pro M1 Max | 15.0 | 117 | 전체 |
F16 | MacBook Pro M1 Max | 15.0 | 43 | GPU |
F16P8 | iPhone 15 Plus | 18.0 | 40.73 | 전체 |
F16P8 | iPhone 13 Pro Max | 17.6 | 51.53 | 전체 |
F16P8 | MacBook Pro M1 Max | 15.0 | 36.52 | 전체 |
F16P8 | MacBook Pro M1 Max | 15.0 | 33.14 | GPU |
F16P8 | iPad Pro 5세대 | 18.0 | 62.49 | 전체 |
F16P8 | iPad Pro 4세대 | 18.0 | 1224 | 전체 |
텍스트
질문 답변
본문 단락과 관련된 질문에 대한 답변을 찾습니다.
세부사항 보기
모델 이름 | 크기 | 작업 |
---|---|---|
BERTSQUADFP16.mlmodel | 217.8MB | 다운로드 |
BERT(Bidirectional Encoder Representations from Transformers) 모델에 질문하여 문서 내 관련 구절을 찾습니다.
이미지
이미지 세분화
카메라 프레임이나 이미지 픽셀을 사전 정의된 클래스 세트로 분할합니다.
세부사항 보기
이미지
드로잉 분류
단일 필기체 숫자(0-9 사이의 숫자 지원)를 분류합니다.
세부사항 보기
이미지
이미지 분류
카메라 프레임이나 이미지 속의 주요 물체를 분류하도록 학습된 MobileNetv2 아키텍처입니다.
세부사항 보기
이미지
이미지 분류
Residual Neural Network가 카메라 프레임이나 이미지 속의 주요 물체를 분류합니다.
세부사항 보기
이미지
드로잉 분류
드로잉 분류자가 KNN(K-Nearest Neighbors) 모델에 기반하여 새로운 드로잉을 인식하도록 학습합니다.
세부사항 보기
모델 이름 | 크기 | 작업 |
---|---|---|
UpdatableDrawingClassifier.mlmodel | 382KB | 다운로드 |
도면 분류 모델을 온디바이스에서 업데이트하여 사용자의 드로잉 매핑을 학습하고 스티커를 맞춤화합니다.
이미지
물체 탐지
카메라 프레임이나 이미지에 있는 80가지 유형의 물체를 찾아 분류합니다.
세부사항 보기