Американские разработчики представили модель Speech2Face, которая может воссоздать лицо говорящего. Алгоритм основывается на трех параметрах, которые может вычислить: пол человека, его возраст и национальность. Таким образом можно получить примерное изображение личности, но, к сожалению, оно не будет достаточно точным.

Чтобы решить эту проблему, ученые из Массачусетского института использовали датасет AVSpeech, в котором есть более миллиона видео разных людей, и алгоритм VGG-Face, использующийся для определении сексуальной ориентации человека по его лицу.

Сначала VGG-Face анализирует видео из AVSpeech и, используя особенности лица, создает их изображения в анфас в нейтральном состоянии. После этого другая часть алгоритма воссоздает спектрограмму речи по аудиодорожке видео. Соединив результаты двух исследований, на выходе получается изображение человека, который говорит на видео.

Но несмотря на это портрет все равно получается не идеальным. Ученые замечают, что алгоритм еще плохо анализирует голос и не всегда может угадать возраст с точностью до десятка лет. Но исследователи и не ставили целью точное восстановление внешности. Они делали упор на определение пола, возраста и нации испытуемого. А пока что эти параметры можно использовать, чтобы создавать анимированные аватары с помощью голоса.