
Canopy Labs представляет Orpheus — семейство современных речевых LLM-программ для создания выразительной речи на уровне человеческого языка.
В качестве основы модели взят Llama-3b. Он обучен на основе более 100 000 часов английской речи и миллиардов текстовых маркеров. Обучение на текстовых токенах улучшает производительность при выполнении задач TTS, поскольку оно способствует отличному пониманию языка.
TTS поддерживает потоковую передачу в реальном времени с очень низкой задержкой — около ~200 мс. Для еще более низкой задержки входной текстовый поток в кэш модели KV может сократить задержку до ~25–50 мс.