Google Lumiere: Um modelo de Inteligência Artificial que cria vídeos a partir de textos

7 meses atrás 85

O novo modelo de difusão text-to-video da Google chama-se Lumiere e pretende criar vídeos com movimento e coerência, realistas, a partir de descrições de vídeo, numa tarefa que tem sido desafiadora para os sistemas de Inteligência Artificial.

O algoritmo descrito num estudo publicado nesta semana usa a arquitetura Space-Time U-Net para gerar toda a duração temporal do vídeo, numa só passagem, o que aumenta a coerência e fluidez face aos sistemas convencionais, explica a publicação Maginative.

Os investigadores que desenvolveram o modelo explicam que este pode vir a ser usado em cenários de imagem-para-vídeo, na pintura e máscara de certas áreas dos vídeos com base em comandos de texto, aplicar efeitos de movimento ou paragem, aumentando o estilo das criações e aplicar filtros em diferentes dimensões.

Uma limitação dos modelos atuais na aplicação do movimento prende-se com o facto de lidarem apenas com alguns fotogramas previstos e os outros serem mais ambíguos. Este modelo lida com a duração completa do vídeo de uma só passagem, o que permite contornar essa limitação e aplicar o movimento de forma mais fluída.

Veja aqui o vídeo de apresentação do estudo, publicado no YouTube.

Ler artigo completo