Як хутка ідзе прагрэс у LLM?
14.02.2025

Як хутка ідзе прагрэс у LLM, і як LLM насычаюцца бэнчмаркамі можна пабачыць на графіку:
Канешне, важныя матэматычныя задачы ўсё яшчэ складаныя для выканання моўнымі мадэлямі, дзе крытычная дакладнасць — у асноўным з-за галюцынацый. Але ўсё роўна прагрэс велізарны, і многія рэчы атрымліваецца аўтаматызаваць.
Для параўнання, Humanity’s Last Exam цяпер вырашаецца на 26% мадэллю DeepResearch ад OpenAI, тады як GPT-4o выдае 3,3% на ім.