Saltar al contenido

Así es Google Lumiere: la IA para generar vídeo

Los avances más recientes en los modelos de inteligencia artificial generativa nos han llevado a encontrarnos ante resultados impresionantes cuando vamos de texto a imagen. Sin embargo, la variante de esta capacidad hacia los modelos de texto a vídeo plantean enormes desafíos debido a su complejidad. Retos que Google quiere superar con Lumiere, su nuevo modelo de inteligencia artificial que convierte a vídeo los textos o las imágenes. Vamos a verlo en detalle:

Sus resultados, por ahora son impresionantes. La pregunta es si de verdad son reales o editados. Ya hemos visto con anterioridad cómo la compañía presentaba Gemini, el modelo de Google de lenguaje de gran tamaño, pero la verdad es que tenía “truco”: los resultados que se mostró en la presentación estaban controlados y editados. Al no tener acceso al sistema es difícil hacerse una idea de sus prestaciones. 

Lo que Google nos ha mostrado y lo refuta a partir de un “paper” y su pertinente documentación técnica son algunas de sus funciones principales, que las podemos dividir en siete:

  • De texto a vídeo: A partir de una descripción de entrada el software es capaz de devolver una secuencia en vídeo bastante interesante y con ciertos dotes realistas. Aquí vemos cómo lo han aprovechado para crear una pareja sobre la lluvia o un oso panda comiendo. Esto ya lo consiguen servicios como Runway. 
  • De imagen a vídeo: La idea es animar una imagen ya preexistente. Lo han probado para crear un oso de peluche sobre la nieve o un goleta en batalla. No está mal. 
  • Generación estilizada: A partir de una imagen realista a modo de referencia, el sistema es capaz de crear logos animados o imágenes de corte más tipo ilustración o caricatura. Esto puede ser útil para los equipos de ilustración de una agencia de marketing o departamento creativo.
  • Estilización de vídeo: Esta función me gusta mucho: puedes introducir un vídeo como referencia y darle instrucciones para que el objeto o persona que aparece en él tenga un estilo diferente. Como ejemplos que vemos han convertido a una mujer y a un perro en figuras geométricas, de Origami, recubierta con flores o, incluso, han imaginado cómo serían si estuvieran hechos de bloques de madera. Esto es más difícil imagen las posibles aplicaciones.
  • Animación de imágenes existentes: Aquí, en teoría, Lumiere es capaz de animar una fotografía de una mariposa sobre una planta o del fuego de una hoguera, dándole movimiento a imágenes que estaban quietas. Lo consigue hace bastante bien.
  • Imaginar vídeos reales: Este también me gusta mucho: Lumiere es capaz de completar vídeos inacabados o con zonas cortadas. Así, por ejemplo, es capaz de rellenar con bastante exactitud vídeos a los que se les han cortado zonas concretas. 
  • Modificación en tiempo real: Esto, si de verdad lo consigue hacer así, me parece fantástico y útil para preparar campañas de publicidad. Por ejemplo, si no te gusta el vestido con el que apareces en un vídeo puedes cambiarlo: se selecciona la zona del vestido y podrás cambiar por otro dándole una descripción a la IA.

Los modelos actuales de texto a vídeo se enfrentan a algunas limitaciones: por ejemplo, en cuanto a la duración del vídeo, la calidad visual y la generación de movimiento realista, principalmente debido a los desafíos relacionados con el modelado del movimiento natural, la memoria, los requisitos de procesamiento, así como por culpa de la necesidad de datos de entrenamiento.

Google ha dado un paso trascendental en el ámbito de la generación de videos al presentar un innovador modelo de texto a vídeo y de imagen a vídeo. Lo han bautizado como Google Lumiere, de ahí el guiño hacia los padres del cine. Este avanzado sistema tiene como objetivo dar vida a imágenes de manera realista, superando la barrera que antes dejaba evidente la artificialidad de los videos generados. Anteriormente, la falta de dinamismo y la notoria falsedad eran obstáculos insalvables, pero Google ha decidido cambiar radicalmente su enfoque.

La clave de esta propuesta radica en la nueva arquitectura desarrollada por Google, la cual permite generar el video completo de una sola vez. A diferencia de los generadores actuales que combinan fotogramas individuales y aplican técnicas de alta resolución, este enfoque es integral y proporciona un movimiento más auténtico y realista. La transición suave entre escenas y la coherencia visual que se obtienen pueden marcar un nuevo hito en la creación de contenido visual generado por inteligencia artificial. ¿Pero es todo real? Lo iremos viendo espero. 

Este cambio de paradigma promete no solo superar las limitaciones técnicas previas, sino también elevar la calidad de los videos generados, acercándolos aún más a la realidad. Google demuestra su compromiso con la excelencia y la constante evolución de sus tecnologías, abriendo nuevas posibilidades en la creación de contenido visual con un impacto significativo en la experiencia del usuario.


Ahora CHATGPT es mejor siendo gratuito: trucos para aprovecharlo

Te enseñamos a aplicar las capacidades de GPT 4o, el nuevo modelos de lenguaje de OpenAI que es grat…

Voces sensuales, la sumisión se quiere apoderar de la IA

A pesar de los esfuerzos, el desarrollo de los sistemas basados en inteligencia artificial continúan…

Scarlett Johansson, OpenAI y el problema de la IA

OpenAI retira una voz empleada para su nuevo modelo ChatGPT-4o por su parecido con la de la actriz S…

1 comentario en «Así es Google Lumiere: la IA para generar vídeo»

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *