
Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта можно обучить мошенничеству, а существующие методы обучения безопасности «неэффективны» для предотвращения этого.
Целью исследования было выяснить, можно ли научить модель ИИ обманывать так же, как это делают люди, и определить, могут ли существующие методы обучения предотвратить такое поведение в модели ИИ.
В ходе исследования его участники смогли научить модель жульничать, создавая так называемый «черный ход», нежелательное поведение, которое запускается определенными входными сигналами и может быть потенциально опасным.
Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для больших языковых моделей: создание триггерной модели злоумышленником и естественная подмена модели.