
Американские ученые из Сан-Диего провели эксперимент на GPT4. Пока результаты не самые радостные.
Всего 652 участника завершили 1810 игр. 51% участников сыграли только одну игру, а 91% сыграли менее 4 игр. GPТ4 prompt прошел 41% игр, превзойдя тесты, установленные ELIZA (27%) и GPT-3.5 (14%), но не дотянув до тестов, установленных участниками-людьми (63%).
Суждения участников основывались в основном на языковом стиле (35%) и социально-эмоциональных характеристиках (27%), что подтверждает идею о том, что интеллекта недостаточно для прохождения теста. Демографические данные участников, включая образование и семейные связи с ILLMS, не предсказывали вероятность обнаружения, что позволяет предположить, что даже те, кто хорошо разбирается в системах и взаимодействует с ними, часто могут быть подвержены обману.