Google оновила модель Gemini 2.5 Flash Native Audio та представила синхронний переклад
Google анонсувала серйозні зміни у своїй моделі Gemini 2.5 Flash Native Audio, що дозволять покращити взаємодію з голосовими ШІ-агентами, а також запустила функцію синхронного перекладу, яка зберігає інтонацію мовця.
В оновленні Google зосередила увагу на трьох ключових напрямах, що дозволяють зробити спілкування з ШІ більш схожим на спілкування з людиною. Основними досягненнями стали: вдосконалення функцій інтеграції із зовнішніми інструментами та 71,5% результат у бенчмарку ComplexFuncBench Audio; підвищення точності слідування інструкціям з 84% до 90%; та поліпшення плавності діалогу з ШІ, який тепер краще пам’ятає контекст попередніх розмов.
Компанії Shopify та United Wholesale Mortgage вже протестували оновлення, зазначивши, що користувачі часто не помічають, що їхній співрозмовник – це штучний інтелект.
Окрім цього, Google представила функцію Live Speech Translation для додатку Google Translate, яка працює за технологією speech-to-speech та відтворює не лише зміст, але й інтонацію, темп і висоту голосу спікера. Ця система підтримує понад 70 мов і здатна автоматично визначити мову співрозмовника та обробляти діалоги, в яких використовується кілька мов одночасно.
Функція живого перекладу запускається в бета-режимі в додатку Google Translate для Android і буде доступна спочатку користувачам у США, Мексиці та Індії. Підтримку для iOS та розширення географії обіцяють додати найближчим часом.
| Ключові зміни | Показники |
|---|---|
| Вдосконалення інтеграції | 71,5% у ComplexFuncBench Audio |
| Слідування інструкціям | З 84% до 90% |
| Плавність діалогу | Покращена пам’ять на контекст |



