Google обновила модель Gemini 2.5 Flash Native Audio и представила синхронный перевод
Google анонсировала серьезные изменения в своей модели Gemini 2.5 Flash Native Audio, которые позволят улучшить взаимодействие с голосовыми ИИ-агентами, а также запустила функцию синхронного перевода, которая сохраняет интонацию говорящего.
В обновлении Google сосредотачивает внимание на трех ключевых направлениях, которые позволяют сделать общение с ИИ более похожим на общение с человеком. Основными достижениями стали: усовершенствование функций интеграции с внешними инструментами и результат 71,5% в бенчмарке ComplexFuncBench Audio; повышение точности следования инструкциям с 84% до 90%; и улучшение плавности диалога с ИИ, который теперь лучше запоминает контекст предыдущих разговоров.
Компании Shopify и United Wholesale Mortgage уже протестировали обновление, отметив, что пользователи часто не замечают, что их собеседник — это искусственный интеллект.
Кроме этого, Google представила функцию Live Speech Translation для приложения Google Translate, которая работает по технологии speech-to-speech и воспроизводит не только содержание, но и интонацию, темп и высоту голоса спикера. Эта система поддерживает более 70 языков и способна автоматически определить язык собеседника и обрабатывать диалоги, в которых используется несколько языков одновременно.
Функция живого перевода запускается в бета-режиме в приложении Google Translate для Android и будет доступна сначала пользователям в США, Мексике и Индии. Поддержку для iOS и расширение географии обещают добавить в ближайшее время.
Ключевые изменения
— Усовершенствование интеграции: 71,5% в ComplexFuncBench Audio
— Следование инструкциям: С 84% до 90%
— Плавность диалога: Улучшенная память на контекст



