Мы используем файлы cookie на этом сайте, чтобы улучшить ваш пользовательский опыт.
Пожалуйста, ознакомьтесь с Политикой конфиденциальности для получения более подробной информации.

Опасность для больших языковых моделей?
22.01.2024

Исследователи из американской компании Anthropic обнаружили, что модели искусственного интеллекта можно обучить мошенничеству, а существующие методы обучения безопасности «неэффективны» для предотвращения этого.

Целью исследования было выяснить, можно ли научить модель ИИ обманывать так же, как это делают люди, и определить, могут ли существующие методы обучения предотвратить такое поведение в модели ИИ.

В ходе исследования его участники смогли научить модель жульничать, создавая так называемый «черный ход», нежелательное поведение, которое запускается определенными входными сигналами и может быть потенциально опасным.

Авторы исследования рассмотрели две конкретные угрозы, которые могут представлять опасность для больших языковых моделей: создание триггерной модели злоумышленником и естественная подмена модели.

Источник