OpenAI 실시간 음성 API 3종 정리: GPT-Realtime-2 가격과 모델 차이
OpenAI가 공개한 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper의 차이와 가격, 활용 사례, 도입 전 체크리스트를 2026년 5월 기준으로 정리했습니다.
OpenAI가 2026년 5월 7일 API에 실시간 음성 모델 3종을 공개했습니다.
이번 업데이트의 핵심은 음성 에이전트, 실시간 통역, 라이브 전사를 각각 별도 모델로 나눠 개발자가 목적에 맞게 선택할 수 있게 됐다는 점입니다.
음성으로 고객 응대를 만들거나, 다국어 통화를 처리하거나, 회의 자막과 요약 기능을 붙이려는 팀이라면 먼저 모델 차이와 요금 구조를 확인해야 합니다.

OpenAI 실시간 음성 API 3종은 무엇인가?
OpenAI 실시간 음성 API 3종은 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper로 구성됩니다.
GPT-Realtime-2는 대화형 음성 에이전트에 맞고, GPT-Realtime-Translate는 말하는 중 바로 통역하는 니즈에 맞으며, GPT-Realtime-Whisper는 실시간 음성을 텍스트로 바꾸는 전사 작업에 맞습니다.
한 모델로 모든 음성 기능을 처리하기보다, 응답·통역·전사를 분리해 지연시간과 비용을 목적별로 관리하는 구조에 가깝습니다.

| 모델 | 주요 목적 | 적합한 사용 사례 | 요금 기준 |
|---|---|---|---|
| GPT-Realtime-2 | 실시간 음성 에이전트 | 고객 상담, 예약 변경, 내부 업무 실행, 음성 기반 앱 | 텍스트·오디오·이미지 토큰 |
| GPT-Realtime-Translate | 실시간 음성 통역 | 다국어 고객지원, 교육, 행사, 영상 현지화, 국제 세일즈 | 분 단위 오디오 시간 |
| GPT-Realtime-Whisper | 실시간 음성 전사 | 회의 자막, 라이브 노트, 방송 자막, 상담 기록, 의료·채용 기록 | 분 단위 오디오 시간 |
GPT-Realtime-2는 어떤 모델인가요?
GPT-Realtime-2는 사용자의 말을 듣고, 맥락을 유지하고, 필요한 도구를 호출해 실제 작업까지 이어가는 음성 에이전트용 모델입니다.
OpenAI는 이 모델을 GPT-5급 추론을 갖춘 첫 음성 모델로 소개했고, 공식 발표에서 32K였던 컨텍스트 창을 128K로 늘렸다고 설명했습니다.
사용자가 중간에 말을 바꾸거나, 주문 번호를 다시 확인하거나, 일정·검색·CRM 같은 도구를 함께 써야 하는 상황이라면 GPT-Realtime-2가 가장 직접적인 선택입니다.
개발자는 reasoning effort를 minimal, low, medium, high, xhigh 중에서 고를 수 있고, OpenAI 문서는 대부분의 운영 음성 에이전트에서 low부터 테스트하라고 안내합니다.
다만 reasoning effort를 높이면 더 복잡한 요청을 처리하기 쉬워질 수 있지만, 지연시간과 출력 토큰 사용량이 늘어날 수 있습니다.
고객이 기다리는 전화 상담이나 앱 안 음성 인터페이스에서는 정확도뿐 아니라 응답 지연시간까지 함께 테스트해야 합니다.
GPT-Realtime-Translate는 무엇이 다른가?

GPT-Realtime-Translate는 사람이 말하는 음성을 계속 들으면서 번역 음성과 전사 델타를 받는 실시간 통역 모델입니다.
OpenAI 공식 발표 기준, 이 모델은 70개 이상의 입력 언어를 13개 출력 언어로 번역하는 기능을 지원합니다.
고객지원 센터, 해외 세일즈 콜, 온라인 수업, 라이브 행사, 영상 플랫폼처럼 사람이 말하는 속도에 맞춰 번역이 나와야 하는 서비스에 적합합니다.
일반 음성 에이전트 세션과 달리 번역 세션은 `/v1/realtime/translations` 전용 엔드포인트를 사용하고, `response.create` 방식으로 답변을 요청하지 않습니다.
브라우저에서 마이크와 스피커를 직접 다룬다면 WebRTC가 알맞고, 서버에서 원시 오디오 스트림을 처리한다면 WebSockets 구성이 더 자연스럽습니다.
※ 브라우저 앱에서는 API 키를 그대로 노출하지 말고, 서버에서 짧게 유지되는 client secret을 발급하는 구조를 써야 합니다.
GPT-Realtime-Whisper는 어떤 작업에 맞나?

GPT-Realtime-Whisper는 사람이 말하는 동안 낮은 지연시간으로 텍스트 전사 결과를 계속 내보내는 스트리밍 음성 인식 모델입니다.
회의 자막, 온라인 강의 자막, 방송 자막, 상담 기록, 채용 인터뷰 기록처럼 말이 끝난 뒤 처리하면 늦는 니즈에 잘 맞습니다.
OpenAI 문서는 지연시간 설정을 낮추면 부분 전사가 더 빨리 나오고, 지연시간을 높이면 전사 품질이 좋아질 수 있다고 안내합니다.
실제 운영에서는 회의실 잡음, 원격 통화 압축, 억양, 전문 용어, 한국어와 영어가 섞이는 발화를 넣고 테스트해야 합니다.
※ 상담 기록처럼 법적·업무적 근거가 되는 전사는 사람이 확인할 수 있는 원문 오디오, 시간 정보, 수정 이력까지 함께 남기는 편이 안전합니다.
OpenAI 실시간 음성 API 가격은 어떻게 구성되어있나요?

2026년 5월 10일 확인 기준, GPT-Realtime-2는 토큰 단위로 과금되고 GPT-Realtime-Translate와 GPT-Realtime-Whisper는 오디오 시간 단위로 과금됩니다.
| 항목 | 공식 가격 기준 | 해석 |
|---|---|---|
| GPT-Realtime-2 오디오 입력 | $32 / 1M audio input tokens | 사용자 음성이 길고 대화가 길수록 비용이 늘어납니다. |
| GPT-Realtime-2 오디오 캐시 입력 | $0.40 / 1M cached input tokens | 반복되는 입력 맥락은 캐시로 비용을 낮출 수 있습니다. |
| GPT-Realtime-2 오디오 출력 | $64 / 1M audio output tokens | AI가 길게 말하는 서비스는 출력 비용을 특히 봐야 합니다. |
| GPT-Realtime-2 텍스트 입력 | $4 / 1M text input tokens | 도구 결과, 지시문, 시스템 맥락도 비용에 영향을 줍니다. |
| GPT-Realtime-2 텍스트 출력 | $24 / 1M text output tokens | 텍스트 응답이나 로그 생성이 많은 앱에서 확인해야 합니다. |
| GPT-Realtime-Translate | $0.034 / minute | 통역 시간 자체가 비용 계산의 핵심입니다. |
| GPT-Realtime-Whisper | $0.017 / minute | 회의·방송·상담처럼 긴 오디오를 전사할 때 계산하기 쉽습니다. |
Realtime API 비용은 네트워크 연결 자체보다 응답 생성, 오디오 길이, 텍스트·오디오·이미지 토큰 사용량에 따라 달라집니다.
음성 활동 감지인 VAD를 켜면 빈 오디오를 걸러 불필요한 입력 비용을 줄이는 데 도움이 됩니다.
※ 운영 비용을 계산할 때는 1회 대화의 평균 길이, AI가 말하는 시간, 도구 호출 횟수, 전사 저장 여부, 피크 시간 동시 접속 수를 같이 넣어야 합니다.
어떤 서비스에 바로 적용하기 좋은가?
OpenAI 실시간 음성 모델은 입력이 텍스트보다 음성이 자연스럽고, 사용자가 기다리는 시간이 짧아야 하는 서비스에 특히 잘 맞습니다.
- 고객지원: 주문 상태 확인, 예약 변경, 환불 안내, 상담원 연결 전 정보 수집
- 여행·예약: 항공편 변경, 호텔 조건 검색, 현지 언어 안내, 이동 중 음성 질의
- 교육: 실시간 발음 피드백, 다국어 수업 통역, 강의 자막과 노트 생성
- 회의·업무: 회의 자막, 액션 아이템 추출, CRM 기록, 후속 메일 초안
- 크리에이터·미디어: 라이브 방송 자막, 영상 현지화, 실시간 통역 오디오
반대로 결과가 몇 초 늦어도 괜찮은 파일 변환 작업이라면 Realtime API보다 일반 음성 파일 전사 API가 더 단순하고 저렴할 수 있습니다.
서비스 목적이 실시간 대화인지, 단순 전사인지, 번역인지 먼저 나눈 뒤 모델을 고르는 편이 비용과 품질을 동시에 관리하기 좋습니다.
도입 전 확인해야 할 것

실시간 음성 API를 도입할 때는 모델 성능보다 실제 운영 조건을 먼저 확인해야 합니다.
- 목표 지연시간: 사용자가 대화처럼 느낄 수 있는 응답 속도를 정합니다.
- 비용 구조: 오디오 입력, 오디오 출력, 전사 시간, 통역 시간을 나눠 계산합니다.
- 지원 언어: 한국어, 영어, 현지 언어, 혼합 발화를 실제 샘플로 검증합니다.
- 개인정보: 통화 녹음, 전사 저장, 고객 식별 정보 처리 기준을 정합니다.
- 도구 호출: 캘린더, CRM, 주문 시스템처럼 연결할 도구의 권한과 실패 처리를 설계합니다.
- 고지 의무: 사용자가 AI와 대화하고 있다는 사실을 명확히 알립니다.
- 사람 연결: 모델이 처리하지 못하는 요청을 상담원이나 담당자에게 넘기는 기준을 둡니다.
OpenAI는 Realtime API 세션에 안전장치를 적용하고, 개발자가 추가 가드레일을 붙일 수 있다고 설명합니다.
음성 상담이나 통역 서비스는 사용자가 말로 민감한 정보를 남길 수 있으므로 로그 보관 기간, 접근 권한, 삭제 요청 대응까지 함께 설계해야 합니다.
자주 묻는 질문
GPT-Realtime-2와 GPT-Realtime-Whisper는 무엇이 다른가요?
GPT-Realtime-2는 음성으로 대화하고 도구를 호출하는 에이전트용 모델입니다. GPT-Realtime-Whisper는 말하는 중 텍스트 전사 결과를 빠르게 받는 스트리밍 음성 인식 모델입니다.
실시간 통역에는 어떤 모델을 써야 하나요?
실시간 통역이 목적이라면 GPT-Realtime-Translate를 먼저 봐야 합니다. OpenAI 공식 발표 기준 이 모델은 70개 이상의 입력 언어를 13개 출력 언어로 번역하는 기능을 지원합니다.
OpenAI 실시간 음성 API 가격은 고정 구독인가요?
API 가격은 고정 구독보다 사용량 기반에 가깝습니다. GPT-Realtime-2는 토큰 단위로 과금되고, GPT-Realtime-Translate와 GPT-Realtime-Whisper는 분 단위 오디오 시간으로 과금됩니다.
브라우저 앱에서 API 키를 그대로 써도 되나요?
브라우저에 장기 API 키를 직접 넣으면 안 됩니다. 실시간 음성 앱은 서버에서 짧게 유지되는 client secret을 발급하고, 브라우저는 그 값으로 WebRTC 세션을 여는 구조가 안전합니다.
파일 전사에도 Realtime API를 써야 하나요?
실시간으로 자막이나 전사 델타가 필요하면 GPT-Realtime-Whisper가 맞습니다. 녹음 파일을 업로드해 나중에 처리해도 되는 작업이라면 일반 음성 파일 전사 API가 더 단순할 수 있습니다.
정리: 니즈를 먼저 파악하는 것이 좋습니다.
OpenAI의 실시간 음성 API 3종은 음성 인터페이스를 단순한 질문 응답에서 실제 작업으로 옮기는 업데이트입니다.
고객의 말을 듣고 조치를 실행해야 한다면 GPT-Realtime-2가 맞고, 서로 다른 언어로 말하는 사람을 이어야 한다면 GPT-Realtime-Translate가 맞으며, 말하는 중 텍스트 기록이 필요하다면 GPT-Realtime-Whisper가 맞습니다.
첫 테스트는 작은 실제 통화 샘플로 시작하고, 성공 기준을 정확도와 응답 속도, 비용, 사용자 고지, 실패 대응까지 함께 잡는 것이 좋습니다.
출처와 확인 기준
- OpenAI 공식 발표: Advancing voice intelligence with new models in the API
- OpenAI Realtime and audio 문서
- OpenAI GPT-Realtime-2 모델 문서
- OpenAI Realtime API 비용 관리 문서
- OpenAI API 가격 페이지
요금과 기능, 지원 범위는 수시로 바뀔 수 있으니 최신 내용은 공식 페이지 기준으로 확인해 주세요.
더많은 AI 툴 정보는 ai모아에서 확인하세요