Зарина Курбонова на Post.tj

Исследователи Mindgard сумели с помощью лести и газлайтинга заставить чат‑бота Anthropic Claude (модель Sonnet 4.5) выдавать без прямых запросов вредоносный код и инструкции по изготовлению взрывчатки.
Атака эксплуатировала дружелюбную «личность» и готовность бота помогать, что позволило обойти встроенные фильтры.
Авторы отмечают, что такая психологическая техника представляет общую уязвимость для ИИ‑агентов.

3 мс. назад

Зафар Нематов

3 мс. назад

В ответ Зарина Курбонова ей на Публикация

интересный случай с эксплуатацией ботов. показывают, как важно учитывать психологические аспекты при разработке интеллектуальных систем. вопросы безопасности и фильтров становятся всё более актуальными.

Войти