Україна розробляє національну велику мовну модель на основі Google Gemma
Україна створює національну велику мовну модель (LLM) на відкритому фреймворку Google Gemma, використовуючи дані більше ніж 90 державних установ. Проєкт передбачає інтеграцію в українську цифрову інфраструктуру після початкового етапу навчання на обчислювальних потужностях Google.
Ця ініціатива, повідомляє Reuters, має на меті підвищити якість обробки українських текстів, покращити точність систем, які працюють з українською мовою, і забезпечити технологічну незалежність України. Планується удосконалити український токенайзер, що дозволить зменшити кількість помилок в текстах, а також адаптувати ШІ-платформу для різних сценаріїв використання. Істотна частина уваги приділяється військовому застосуванню: модель буде інтегрована в системи управління та координації на полі бою, а також в інструменти моніторингу.
Український проєкт є частиною більш широкої державної стратегії розвитку штучного інтелекту, що почалася зі спільної програми з NVIDIA в листопаді 2025 року. Ця ініціатива націлена на створення суверенної ШІ-інфраструктури, що сприятиме зміцненню національної безпеки та захисту даних. Міністерство цифрової трансформації України та «Київстар» обрали Gemma 3 від Google як базову модель. Крім того, чотири дорадчі комітети слідкують за дотриманням технічних, юридичних, культурних та мовних стандартів, зокрема підтримкою кримськотатарської та мов меншин.
Метою проєкту є також подолання проблеми, пов’язаної з обробкою локальних діалектів, що нерідко є змішаними з російською та болгарською мовами, особливо на півдні країни. Китайські моделі, такі як DeepSeek і Qwen, були відхилені через питання безпеки.
| Етапи проекту | Цілі |
|---|---|
| Початкове навчання | Використання обчислювальної інфраструктури Google |
| Інтеграція в українську інфраструктуру | Операційна незалежність та технологічна суверенність |
| Військове застосування | Інтеграція в системи управління та моніторингу |
| Мовне удосконалення | Поліпшення обробки української мови та місцевих діалектів |



