OpenAIがリアルタイム会話・通訳・文字起こしAIをリリース、「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3種

OpenAIがリアルタイム音声対話AI「GPT-Realtime-2」、リアルタイム音声翻訳AI「GPT-Realtime-Translate」、リアルタイム文字起こしAI「GPT-Realtime-Whisper」の3種を2026年5月7日にリリースしました。
Advancing voice intelligence with new models in the API | OpenAI
https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/
GPT-Realtime-2はGPT-5シリーズと同等の推論能力を備えた音声モデルとしてアピールされています。リアルタイムで会話できるほどの処理速度を備えつつ、高度な会話を自然に進めることが可能。ベンチマークテストではGPT-Realtime-1.5を上回るスコアを記録しています。

第三者機関のArtificial Analysisが実施した会話理解性能のベンチマーク結果が以下。GPT-Realtime-2はStep-Audio R1.1やGrok Voice Think Fast 1.0には劣るものの、Gemini 3.1 Fash Live Previewを上回っています。

GPT-Realtime-Translateはユーザーが発する音声をリアルタイムで別言語に翻訳できるAIです。OpenAIの研究者であるJason Liu氏が投稿した以下のポストでは、英語をリアルタイムで日本語に翻訳する様子を確認できます。
新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason liu (@jxnlco) May 7, 2026
GPT-Realtime-Whisperは発話と同時に文字起こしできるAIで、リアルタイム字幕や議事録などの作成に役立つとされています。
「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」はAPI経由で利用可能。GPT-Realtime-2のAPI料金は入力100万トークン当たり32ドル(約5020円)、出力100万トークン当たり64ドル(約1万40円)です。また、GPT-Realtime-TranslateのAPI料金は1分当たり0.034ドル(約5.33円)で、GPT-Realtime-WhisperのAPI料金は1分当たり0.017ドル(約2.67円)です。
3種のAPIの仕様は以下のリンク先にまとまっています。
gpt-realtime-2 Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-2
gpt-realtime-translate Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-translate
gpt-realtime-whisper Model | OpenAI API
https://developers.openai.com/api/docs/models/gpt-realtime-whisper
・関連記事
「GPT-5.5 Instant」が登場、ChatGPTの新しいデフォルトモデルに - GIGAZINE
OpenAIが「GPT-5.5」をリリース、Claude Opus 4.7を上回る性能 - GIGAZINE
コスパ重視AIモデル「Grok 4.3」が登場&人間の声を2分以内にクローンできる音声合成機能「Custom Voices」も登場 - GIGAZINE
xAIの音声会話エージェントAI「Grok Voice Think Fast 1.0」が登場 - GIGAZINE
・関連コンテンツ
in AI, Posted by log1o_hf
You can read the machine translated English article OpenAI has released three AI programs fo….







