
Например, с его помощью робот-манипулятор научился открывать ящики.
Eureka использует GPT-4 и генеративные модели для написания кода. ИИ-агент принимает комментарии человека и редактирует алгоритм. При этом система понимает естественный язык, и нет необходимости сообщать ей точные параметры, которые необходимо исправить. Для более эффективного обучения Eureka может анализировать большие выборки кандидатов на вознаграждение, выбирая лучших из них.
Обучение проходит в приложении физического моделирования Nvidia Isaac Gym . Программы вознаграждения, созданные Eureka, превосходят программы, написанные экспертами, более чем в 80% задач, увеличивая производительность роботов в среднем на 50%. Агент использует моделирование с ускорением на графическом процессоре, чтобы быстро оценить качество кандидатов на вознаграждение и самосовершенствование.