«Сбер» представил нейросеть для генерации полноценного видео

«Сбер» представил нейросеть Kandinsky Video, которая является первой в России генеративной моделью для создания полноценных видеороликов по текстовому описанию, сообщает пресс-служба банка. 

Отмечается, что данная модель может генерировать видеоряд продолжительностью до восьми секунд с частотой 30 кадров в секунду. С соответствующими заявлениями выступил первый заместитель председателя правления «Сбербанка» Александр Ведяхин в ходе международной конференции AI Journey.

Согласно релизу банка, архитектура Kandinsky Video состоит из двух ключевых блоков: первый отвечает за создание ключевых кадров, из которых складывается структура сюжета видео, а второй — за генерацию интерполяционных кадров, которые позволяют достичь плавности движений в финальном видео. При этом в основе двух блоков лежит новая модель синтеза изображений по текстовым описаниям Kandinsky 3.0.

«Формат сгенерированного видео представляет собой непрерывную сцену с движением как объекта, так и фона. Именно это отличает видеоролики, синтезированные моделью Kandinsky Video, от анимационных видеороликов, в которых динамика достигается за счет моделирования пролета камеры относительно статичной сцены. Нейросеть создает видеоролики с разрешением 512 х 512 пикселей и различным соотношением сторон. Модель обучена на датасете из более чем 300 тыс. пар «текст — видео». Генерация видео занимает до трех минут», — следует из сообщений пресс-службы «Сбера».

Фрагмент видеоролика, созданного нейросетью Kandinsky Video (источник: пресс-служба “Сбербанка”)

Источник: Finam.ru

Добавить комментарий