Мы выкарыстоўваем файлы cookie на гэтым сайце для паляпшэння вашага вопыту карыстання.
Для больш падрабязнай інфармацыі азнаёмцеся з Палітыка канфідэнцыяльнасці

Небяспека для вялікіх моўных мадэляў?
22.01.2024

Даследчыкі з амерыканскай кампаніі Anthropic выявілі, што мадэлі штучнага інтэлекту могуць быць навучаны падману, і што існуючыя метады навучання бяспекі “неэфектыўныя” для прадухілення гэтага.

Мэта даследавання заключалася ў тым, каб высветліць, ці можна навучыць АІ мадэль падманваць так, як гэта робяць людзі, і вызначыць, ці здольныя існуючыя метады навучання прадухіліць такія паводзіны AI мадэлі.

У ходзе даследавання яго ўдзельнікі змаглі навучыць мадэлі падманваць, стварыўшы так званы “бэкдор”, непажаданыя паводзіны, якія запускаюцца пры пэўных ўваходных сігналах і могуць быць патэнцыйна небяспечнымі.

Аўтары даследавання разгледзелі дзве канкрэтныя пагрозы, якія могуць уяўляць небяспеку для вялікіх моўных мадэляў: стварэнне зламыснікам мадэлі з трыгерам і натуральнае ўзнікненне падманвання мадэллю.

Крыніца