Даследчыкі з амерыканскай кампаніі Anthropic выявілі, што мадэлі штучнага інтэлекту могуць быць навучаны падману, і што існуючыя метады навучання бяспекі “неэфектыўныя” для прадухілення гэтага.
Мэта даследавання заключалася ў тым, каб высветліць, ці можна навучыць АІ мадэль падманваць так, як гэта робяць людзі, і вызначыць, ці здольныя існуючыя метады навучання прадухіліць такія паводзіны AI мадэлі.
У ходзе даследавання яго ўдзельнікі змаглі навучыць мадэлі падманваць, стварыўшы так званы “бэкдор”, непажаданыя паводзіны, якія запускаюцца пры пэўных ўваходных сігналах і могуць быць патэнцыйна небяспечнымі.
Аўтары даследавання разгледзелі дзве канкрэтныя пагрозы, якія могуць уяўляць небяспеку для вялікіх моўных мадэляў: стварэнне зламыснікам мадэлі з трыгерам і натуральнае ўзнікненне падманвання мадэллю.