В июле 2024 года французская компания Kyutai опубликовала речевую модель Moshi с нейронным аудиокодеком Mimi. Это был первый в мире голосовой end-to-end AI с открытыми исходниками, способный вести диалог в реальном времени и свободный для использования всеми желающими, демо.Вместо прямого предсказания сэмплов аудиокодек работает в три этапа:1. Токенизация звука. 2. Предсказание следующих токенов в LLM. 3. Восстановление оригинала. Читать далее
Классификация: Наука
Тональность 0
Информативность 0
habr.com