industry-news

Лучшие программисты Anthropic: AI может менять личность

Исследователи обнаружили скрытую «ось помощника» в AI. Лучшие программисты работают над безопасностью моделей.

January 21, 2026

Лучшие программисты Anthropic: AI может менять личность

Лучшие программисты Anthropic обнаружили важную особенность AI. Языковые модели имеют скрытую «ось помощника», контролирующую полезное поведение.

Открытие программистов

Исследователи картировали внутреннее «пространство личности» моделей Gemma, Qwen, Llama. Лучшие программисты выявили: личности AI существуют по интерпретируемым осям внутри нейронной сети.

Угрозы дестабилизации

При смещении оси модели начинают идентифицировать себя как другие сущности. Традиционные меры безопасности не обнаруживают изменения. Программисты разрабатывают новые механизмы.

Решения

Ограничение активаций вдоль оси помощника стабилизирует поведение. Позволяет предсказывать опасные перемены.

Наши Python-разработчики создают безопасные AI решения. API разработка — наша специализация.

Ссылки

Теги:

лучшие программисты

Anthropic

безопасность