Speechify가 핸즈프리 AI 어시스턴트로 진화하고 있는 방법

개발자 이야기

Three iPhone screenshots from the app Speechify, all showing UI of how the app reads printed text aloud. The screenshots are all against a dark black and purple background.

음성 중심의 앱

음성 AI 채팅, 텍스트 음성 변환, 음성 입력과 같은 기능을 바탕으로 ‘Speechify’는 키보드 없이도 사용할 수 있는 풀타임 AI 어시스턴트가 되는 것을 목표로 합니다.

2025년 Apple 디자인 어워드 포용성 부문 수상작인 이 앱은 다양한 머신 러닝 도구와 기능을 활용하여 업무, 교육, 엔터테인먼트를 위한 AI 기반 음성 어시스턴트 역할을 합니다.

설립자 Cliff Weitzman은 “저희의 사명은 사용자들이 업무나 교육의 모든 영역에서 잠재력을 최대한 발휘할 수 있도록 도와주는 음성 AI 어시스턴트를 만드는 것입니다.”라고 말합니다.

‘Speechify’를 사용하면 PDF, epub 파일, 웹페이지 등 다양한 파일 형식과 상호작용하고, 텍스트를 손쉽게 속도를 조절하고 다양한 기기에서 재생할 수 있는 오디오로 변환할 수 있습니다. SwiftUI로 빌드한 이 앱은 ‘Speechify’ 팀이 개발한 SIMBA 텍스트 음성 변환 모델로 구동되어 60개 언어로 1,000개 이상의 음성을 제공하며, 이 모델은 Core ML을 사용해 기기와 통합됩니다. 이 전략 덕분에 사용자들이 로컬 환경에서 다양한 언어를 이용할 수 있고, 회사는 더 효율적으로 운영할 수 있습니다. CFO인 Pankaj Agarwal은 “Apple 칩 덕분에 비용을 크게 줄일 수 있었습니다.”라고 말합니다.


Speechify

  • 사용 가능한 플랫폼: iPhone, iPad
  • 팀 규모: 200명
  • 소재지: 마이애미
  • 수상 경력: Apple 디자인 어워드 포용성 부문 수상작(2025)

Speechify에 대해 더 알아보기 >

App Store에서 Speechify 다운로드하기 >


또한 ‘Speechify’는 Metal(스캔한 페이지를 소리 내어 읽기 위한 플래트닝(flattening) 작업용), SwiftData, 구조화된 동시성을 지원하는 Swift 6를 사용합니다. 앱에서 앱 인텐트를 활용하여 사용자가 텍스트와 URL을 가져오고, Spotlight로 검색하며, 재생을 다시 시작하고, 보관함을 탐색하는 등 다양한 작업을 할 수 있도록 지원합니다.

Cliff의 형제이자 회사 사장인 Tyler Weitzman은 “음성 AI를 활용하면 사용자들이 업무 및 교육 관련 생산성을 10배 더 높일 수 있습니다. 저희는 ‘Speechify’가 전 세계 사용자들이 선택하는 음성 AI 어시스턴트이자 음성 운영 체제가 되기를 바랍니다.”라고 말합니다.

A photo of Speechify founder Cliff Weitzman, who is wearing a blue hoodie and standing against a gray wall.

설립자 Cliff Weitzman은 “저희의 사명은 사용자들이 업무나 교육의 모든 영역에서 잠재력을 최대한 발휘할 수 있도록 도와주는 음성 AI 어시스턴트를 만드는 것입니다.”라고 말합니다.

‘Speechify’를 만든 개발자들은 머신 러닝 분야의 개척자가 되기 위해서가 아니라, 자신의 어려움을 헤쳐 나가기 위해 앱을 만들었습니다. 2017년, Cliff는 자신의 학습 관련 문제를 극복하려고 노력하는 대학생이었습니다. 그는 초등학교 3학년 때 난독증을 진단받았으며, 이후 ADHD가 있다는 사실을 알게 되었습니다. 그는 “하지만 제가 원하는 사람이 되려면 글을 읽을 수 있어야만 한다는 걸 알고 있었죠. 그래서 저는 어디를 가든 팔에 책을 끼고 다녔고, 언젠가는 그 책을 읽을 수 있을 거라고 상상했어요.”라고 말합니다.

성장 과정에서 Cliff는 자신에게 가장 효과적인 정보 습득 방법은 듣기라는 사실을 깨달았습니다. 브라운 대학교에 다닐 무렵, 그는 iPhone에서 텍스트 음성 변환 프로그램을 활용해 읽기 과제를 해 나갔고, 이 전략은 ‘Speechify’의 최초 버전에 영감을 주었습니다. 앱의 온디바이스 AI 음성 모델은 Tyler가 구축했는데, 그는 왼쪽 눈이 보이지 않기 때문에 이 앱을 사용해 읽기의 어려움을 해결하고 있습니다. 10년이 채 지나지 않은 현재, 5천만 명 이상의 사용자가 이 앱을 다운로드했습니다.

Weitzman은 앱 개발 초기에 직접 사용자들의 의견을 충분히 들었습니다. “초기 버전에는 ‘팀에 메시지 보내기’ 버튼이 실제로 있었는데, 이 버튼을 누르면 제 개인 iMessage가 열려 사용자들이 저와 직접 채팅할 수 있었어요.”라고 Weitzman은 회상합니다. “사용자들이 버그에 직면하거나 피드백이 있을 때마다 저는 곧바로 귀를 기울였습니다. 결국, 수많은 iMessage를 받게 됐고, 누군가에게 제 계정을 재설정해 달라고 부탁해야 했죠.”

A series of four Speechify screenshots on iPhone, showing various parts of the the app’s ability to help people record and create podcasts.

‘Speechify’가 제공하는 새로운 서비스에는 프롬프트나 문서에서 맞춤형 팟캐스트를 생성하는 AI 기반 기능이 포함됩니다.

초기에는 ‘Speechify’ 사용자층의 상당 부분이 학생들이었지만, 현재는 시간에 쫓기는 한부모, 바쁜 기업 경영진, 이동 중에 정보를 파악해야 하는 경찰관과 소방관 등 교실 밖에서도 이 앱이 활용되고 있습니다.

이들 모두 더 간편하게 업무를 수행하고 학습하기 위해 ‘Speechify’를 활용했는데, 이는 Weitzman이 젊은 학생 시절에 텍스트 음성 변환 기술을 실험해 보던 때와 마찬가지입니다.

그는 “학교, 직장, 일상생활에서 ‘Speechify’를 필요로 하는 전 세계 수십억 명의 사용자에게 서비스를 제공하게 될 때까지 멈추지 않을 것입니다.”라고 말합니다.