Амерыканскія вучоныя з Сан Дыега правялі эксперымент для GPT4. Пакуль вынікі не самыя радасныя.
У агульнай складанасці 652 удзельнікі завяршылі 1810 гульняў. 51% удзельнікаў гулялі толькі ў адну гульню, а 91% згулялі менш, чым у 4 гульні. GPТ4 prompt прайшоў 41% гульняў, перасягнуўшы базавыя паказчыкі, устаноўленыя ELIZA (27%) і GPT-3.5 (14%), але не дасягнуўшы поспеху і базавых паказчыкаў, устаноўленых удзельнікамі-людзьмі (63%).
Рашэнні ўдзельнікаў грунтаваліся ў асноўным на лінгвістычным стылі (35%) і сацыяльна-эмацыянальных рысах (27%), якія пацвярджаюць ідэю аб тым, што інтэлекту недастаткова для праходжання тэста. Дэмаграфічныя даныя ўдзельнікаў, уключаючы адукацыю і сямейныя сувязі з ILLMS, не прадказвалі верагоднасць выяўлення, мяркуючы, што нават тыя, хто глыбока разумее сістэмы і ўзаемадзейнічае з імі, часта могуць быць схільны да падману.