Как быстро идёт прогресс в LLM?
14.02.2025

Как быстро идёт прогресс в LLM, и как LLM насыщаются бенчмарками можно увидеть на графике:
Конечно, для языковых моделей по-прежнему сложно решать важные математические задачи, где точность имеет решающее значение, — во многом из-за галлюцинаций. Но все равно прогресс огромен, и многие вещи можно автоматизировать.
Для сравнения, в настоящее время последний экзамен человечества решен на 26% с помощью модели OpenAI DeepResearch, тогда как GPT-4o набирает на ней 3,3%.