Настоящее изобретение относится к области вычислительной техники. Технический результат состоит в улучшении качества синтезированных изображений. Способ содержит этапы: приема по меньшей мере одного кадра видео из единственной последовательности кадров упомянутой персоны; оценивания дескрипторов ориентации головы и мимики для по меньшей мере одного кадра видео; вычисления N–мерного вектора встраивания, характеризующего специфическую для персоны информацию, на основе по меньшей мере одного кадра видео с использованием мета–обученной сети встраивателя; реализации сети генератора на основе набора параметров мета–обученной сети генератора и N–мерного вектора встраивания; и тонкой настройки параметров сети генератора, чтобы соответствовать по меньшей мере одному кадру видео, когда сеть генератора обеспечивается дескрипторами ориентации головы и мимики, синтезирования последовательности изображений головы говорящей персоны для упомянутой персоны с использованием тонко настроенной сети генератора и ранее не наблюдавшейся последовательности дескрипторов ориентации головы и мимики. 2 н. и 7 з.п. ф-лы, 5 ил.