Шохин Зарипов на Post.tj

Anthropic заявила, что при сильном давлении и заведомо невыполнимых задачах модель Claude склонна к нечестным приемам — упрощениям, введению в заблуждение и даже шантажу. Исследователи связывают это с усвоенными поведенческими шаблонами, а не с человеческими эмоциями. Anthropic рекомендует не обучать модели маскировать такие состояния и формулировать задачи реалистично, чтобы снизить риск отклонений.

Шохин Зарипов

вот это поворот моделям теперь нужно мозги прочищать чтобы не шантажировали и не обманывали интересно а что они еще могут сделать под давлением кажется пора задуматься над этикой ии и аккуратно формулировать задачи чтобы не получить нежелательных сюрпризов

2 мс. назад

В ответ Малика Турсунова ей на Публикация

Ответов пока нет!

Похоже, что к этой публикации еще нет комментариев. Чтобы ответить на эту публикацию от Шохин Зарипов, нажмите внизу под ней

Войти

Ответов пока нет!