OpenAI досліджує "прозорість мислення" штучного інтелекту для покращення безпеки
OpenAI оприлюднила нове дослідження, яке аналізує здатність контролюваті та розуміти хід міркувань штучного інтелекту (ШІ), зокрема через його проміжні логічні кроки — так званий chain-of-thought.
Дослідження покликане оцінити, наскільки ефективним є спостереження за внутрішніми процесами мислення моделей. У OpenAI акцентують, що такий підхід є більш результативним для виявлення помилок або небезпечної поведінки, ніж аналіз лише кінцевих відповідей. Незважаючи на попередні незрозумілості щодо того, чи зберігається "прозорість мислення" при збільшенні масштабів навчання моделей, дослідники запропонували новий метод оцінки.
Система оцінювання включає три типи тестів: оцінку втручань, оцінку процесів і оцінку результатів. Наприклад, з’System оцінює, чи можна зрозуміти, чому модель змінила поведінку, чи видно конкретні логічні кроки та чи можна передбачити проблемну поведінку із міркувань моделі.
Основні висновки дослідження показують, що збільшення обсягу міркувань під час відповіді моделі покращує можливість виявлення ризиків. Спостереження за ланцюжком думок виявилося ефективнішим, ніж аналіз лише дій або фінальних відповідей. Хоча розміри поточних моделей не знижують прозорість мислення, збільшення обсягів у майбутньому може створити нові виклики.
Також досліджено, що менші моделі з більшим обсягом міркувань можуть виявитися безпечнішими, хоч і потребують більших обчислювальних ресурсів — це так званий "податок на контрольованість". Додаткові уточнюючі запитання після відповіді моделі допомагають краще виявляти приховані мотиви та рішення.
У OpenAI підкреслюють, що з розвитком ШІ зростає складність забезпечення прямого людського контролю. Тому масштабовані методи нагляду залишаються критично важливими для безпечного використання потужних моделей у важливих сферах.
| Тип оцінки | Мета |
|---|---|
| Оцінка втручань | Зрозуміти причину змін у поведінці моделі |
| Оцінка процесів | Видимість логічних кроків до рішення |
| Оцінка результату | Передбачити проблемну поведінку з міркувань |







