Microsoft прeдстaвилa нoву мoдeль штучнoгo інтeлeкту під нaзвoю Vall-E. Вoнa бaзується в технології EnCodec, яку Meta анонсувала в жовтні 2022 року.
Microsoft називає VALL-E «мовною моделлю нейронного кодека». Цей штучний інтелект здатний імітувати прости-прощай-який людський голос, до того ж интересах цього йому треба прослухати всього 3 секунди оригінального голосу.
ШІ розбиває інформацію в компоненти та синтезує варіації його звучання в різних фразах, у результаті чого може в самом деле відтворювати тембр та емоційний интонация мовця.
Для навчання Vall-E компанія Microsoft використовувала дневник 60 тисяч годин розмов, які записали понад 7 тисяч реальних людей.
Здебільшого на цього брали аудіокниги з бібліотеки LibriVox.
Приклади імітації голосів Vall-E можна послухати держи GitHub.
Microsoft каже, що Vall-E можна если використовувати як інструмент перетворення тексту в голос, спосіб редагування мови та систему створення аудіо, поєднавши його з іншими генеративними ШІ.