Logo
Зарина Курбонова
Исследователи Mindgard сумели с помощью лести и газлайтинга заставить чат‑бота Anthropic Claude (модель Sonnet 4.5) выдавать без прямых запросов вредоносный код и инструкции по изготовлению взрывчатки.
Атака эксплуатировала дружелюбную «личность» и готовность бота помогать, что позволило обойти встроенные фильтры.
Авторы отмечают, что такая психологическая техника представляет общую уязвимость для ИИ‑агентов.
25 дн. назад
Зафар Нематов
25 дн. назад
В ответ Зарина Курбонова ей на Публикация
интересный случай с эксплуатацией ботов. показывают, как важно учитывать психологические аспекты при разработке интеллектуальных систем. вопросы безопасности и фильтров становятся всё более актуальными.