Нові голосові моделі ШІ від OpenAI: живе мовлення, переклад та транскрипція

OpenAI запустила революційні аудіо-ШІ для API з перекладом і транскрипцією

OpenAI анонсувала нові аудіомоделі для API, які дозволяють створювати голосові ШІ-сервіси з можливостями перекладу в реальному часі, транскрипції та складання складних діалогів.

OpenAI представила три нові моделі: GPT-Realtime-2 для поліпшених діалогів, GPT-Realtime-Translate для миттєвого перекладу та GPT-Realtime-Whisper для транскрипції. GPT-Realtime-2 пропонує покращену взаємодію, включаючи контекстне вікно, розширене до 128 кілобайт, та можливість робити кілька завдань одночасно. Модель також краще працює зі спеціалізованою термінологією та власними назвами. GPT-Realtime-Translate підтримує понад 70 мов для введення та 13 для виведення, що робить її корисною для міжнародних дзвінків та багатомовних ШІ-асистентів. Модель вже тестують у Deutsche Telekom для голосової підтримки клієнтів. GPT-Realtime-Whisper забезпечує стрімінгову транскрипцію, що корисно для створення субтитрів і ведення нотаток.

Ці нові можливості пришвидшують створення інноваційних рішень у сфері голосових технологій. Зокрема, вони відкривають нові перспективи для покращення клієнтської підтримки, зменшення мовних бар’єрів та автоматизації. Експерти відзначають, що ці нововведення суттєво вплинуть на ринок голосових асистентів та перекладацьких послуг.

Модель	Функція	Вартість
GPT-Realtime-2	Покращений діалог	$32 за 1 млн аудіотокенів (вхід), $64 (вихід)
GPT-Realtime-Translate	Переклад у реальному часі	$0,034 за хвилину
GPT-Realtime-Whisper	Транскрипція	$0,017 за хвилину

Гарячі теми

Політика

Суспільство

Економіка

Технології

Гарячі теми

Політика

Суспільство

Економіка

Технології

Нові голосові моделі ШІ від OpenAI: живе мовлення, переклад та транскрипція

Теми

Схожі статті

Компания

Головні новини

Розсилка новин