OpenAI запустила революционные аудио-ИИ для API с переводом и транскрипцией
OpenAI анонсировала новые аудиомодели для API, которые позволяют создавать голосовые ИИ-сервисы с возможностями перевода в реальном времени, транскрипции и составления сложных диалогов.
OpenAI представила три новые модели: GPT-Realtime-2 для улучшенных диалогов, GPT-Realtime-Translate для мгновенного перевода и GPT-Realtime-Whisper для транскрипции. GPT-Realtime-2 предлагает улучшенное взаимодействие, включая контекстное окно, расширенное до 128 килобайт, и возможность выполнять несколько задач одновременно. Модель также лучше справляется со специализированной терминологией и собственными названиями. GPT-Realtime-Translate поддерживает более 70 языков для ввода и 13 для вывода, что делает её полезной для международных звонков и многоязычных ИИ-ассистентов. Модель уже тестируют в Deutsche Telekom для голосовой поддержки клиентов. GPT-Realtime-Whisper обеспечивает стриминговую транскрипцию, что полезно для создания субтитров и ведения заметок.
Эти новые возможности ускоряют создание инновационных решений в сфере голосовых технологий. В частности, они открывают новые перспективы для улучшения клиентской поддержки, уменьшения языковых барьеров и автоматизации. Эксперты отмечают, что эти нововведения существенно повлияют на рынок голосовых ассистентов и переводческих услуг.
Модель
Функция
Стоимость
GPT-Realtime-2
Улучшенный диалог
32 $ за 1 млн аудиотокенов (вход), 64 $ (выход)
GPT-Realtime-Translate
Перевод в реальном времени
0,034 $ за минуту
GPT-Realtime-Whisper
Транскрипция
0,017 $ за минуту








