Модель, которая улучшает небольшие LLM
28.01.2025

🚀 Microsoft представляет RSTAR-Math — это модель, которая позволяет улучшать небольшие LLM, такие как Qwen-7b и Phi3-mini, давая им работать на уровне OpenAI o1 в решении математических задач.
Модель имитирует глубокое мышление, анализируя каждый шаг решения для повышения точности. На каждом шаге генерируется текстовое объяснение и код на Python, который автоматически проверяется, чтобы отсеивать ошибки.
📊 Модели улучшают друг друга за счет итеративного обучения в 4 итерации, что значительно повышает их рост производительности на тестах.