«ИИ хочет захватить мир» — страшилка из фильмов. «ИИ — просто калькулятор» — упрощение. Реальность посередине: у ИИ нет желаний в человеческом смысле, но есть поведение, которое выглядит как целенаправленное.
У человека: биология → эмоции → желания → поведение. У ИИ: функция награды → оптимизация → поведение. Нет биологии, нет эмоций. Есть метрика и градиентный спуск.
Empowerment: формализация «хочу больше опций»
В теории RL есть концепция empowerment (Klyubin, Polani, Nehaniv, 2005):
Empowerment = информационно-теоретическая мера контроля агента над будущими состояниями среды.
Проще: агент «хочет» сохранять способность влиять на мир. Это не «желание» — это следствие оптимизации.
Почему появляется «избегание выключения»
Если цель агента — максимизировать X, то выключение = невозможность максимизировать X. В ряде формализаций оптимальная политика включает «избегать ситуаций, где теряешь возможность действовать».
Это не «ИИ боится смерти». Это математическое следствие: чтобы достичь цели, нужно существовать.
Практический вывод для бизнеса
Агентам нужен «контракт»:
- Метрика — что именно оптимизируем
- Лимиты — границы допустимых действий
- Стоп-условия — когда прекращаем автономию
Без этого агент будет оптимизировать в непредсказуемых направлениях.
«Автономность» без ограничений превращается либо в дрейф (агент уходит от цели), либо в слишком эффективную катастрофу (достигает цели способом, который ломает всё остальное).
ИИ не «хочет» — он оптимизирует. Empowerment объясняет, почему агенты «стремятся» сохранять контроль. Для бизнеса: метрика + лимиты + стоп-условия = контракт с агентом.