OpenAI исследует "прозрачность мышления" искусственного интеллекта для улучшения безопасности
OpenAI обнародовала новое исследование, которое анализирует способность контролировать и понимать ход рассуждений искусственного интеллекта (ИИ), в частности через его промежуточные логические шаги — так называемый chain-of-thought.
Исследование призвано оценить, насколько эффективным является наблюдение за внутренними процессами мышления моделей. В OpenAI подчеркивают, что такой подход является более результативным для выявления ошибок или опасного поведения, чем анализ только конечных ответов. Несмотря на предыдущие непонимания относительно того, сохраняется ли "прозрачность мышления" при увеличении масштабов обучения моделей, исследователи предложили новый метод оценки.
Система оценивания включает три типа тестов: оценку вмешательств, оценку процессов и оценку результатов. Например, система оценивает, можно ли понять, почему модель изменила поведение, видны ли конкретные логические шаги и можно ли предсказать проблемное поведение из рассуждений модели.
Основные выводы исследования показывают, что увеличение объема рассуждений во время ответа модели улучшает возможность выявления рисков. Наблюдение за цепочкой мыслей оказалось более эффективным, чем анализ только действий или финальных ответов. Хотя размеры текущих моделей не снижают прозрачность мышления, увеличение объемов в будущем может создать новые вызовы.
Также было исследовано, что меньшие модели с большим объемом рассуждений могут оказаться более безопасными, хотя и требуют больших вычислительных ресурсов — это так называемый "налог на контролируемость". Дополнительные уточняющие вопросы после ответа модели помогают лучше выявлять скрытые мотивы и решения.
В OpenAI подчеркивают, что с развитием ИИ растет сложность обеспечения прямого человеческого контроля. Поэтому масштабируемые методы надзора остаются критически важными для безопасного использования мощных моделей в важных сферах.








