Que un modelo de inteligencia artificial sea capaz de crear imágenes realistas no es algo que a estas alturas nos sorprenda. Modelos como Midjourney, DALL-E 3 o Stable Diffusion son capaces de cosas impresionantes, pero cuando hablamos de generar vídeo... la cosa cambia. Hay modelos, como Pika o Morph, que consiguen resultados ciertamente correctos, pero bastante alejados de lo que, según ByteDance, empresa matriz de TikTok, puede conseguir el modelo que acaba de anunciar: MagicVideo-V2.
Vídeos realistas y, sobre todo, consistentes. En la web del proyecto hay algunos vídeos generados con esta inteligencia artificial y los resultados son buenísimos. No solo por el nivel de detalle, sino por la consistencia de las imágenes. Si sacamos la lupa podremos ver algunas costuras (véanse las patas del vídeo del elefante en el desierto), pero lo cierto es que las 94 imágenes que componen cada clip tienen una coherencia sensacional. Puedes ver algunas pruebas en el vídeo bajo estas líneas.
Cómo funciona. MagicVideo-V2 es un modelo que comprende cuatro módulos: texto a imagen (T2I); imagen a video (I2V); vídeo a vídeo (V2V) y un modelo de interpolación de frames. Según explican los creadores, el módulo T2I genera una imagen de 1.024 x 1.024 píxeles en función del prompt introducido. El módulo I2V anima la imagen, generando 32 fotogramas de 600 x 600 píxeles. En tercer lugar, el módulo V2V aumenta la resolución hasta los 1.048 x 1.048 píxeles y, finalmente, el módulo de interpolación amplía la secuencia a 94 fotogramas.

Comparación con otros modelos. Como no podría ser de otra forma, los creadores también han publicado los resultados de haber usado el mismo prompt con diferentes modelos de generación de vídeos mediante inteligencia artificial. Según las imágenes provistas, el modelo de ByteDance consigue resultados mucho mejores que la competencia, si bien Stable Difussion Video y Pika en ciertos contextos se quedan muy a la par. La diferencia es los modelos de la competencia se pueden usar, mientras que MagicVideo-V2, al menos por ahora, no parece estar disponible para su prueba.
Lejos de ser perfectos. Si bien es cierto que el estado del arte de esta tecnología es, cuanto menos, llamativo, los clips generados todavía quedan lejos de ser totalmente creíble. Además, generalmente son vídeos cortos que requieren bastante fuerza de cómputo para ser generados. No obstante, es una tecnología que no deja de mejorar y que, seguramente, nos acabe sorprendiendo (más) más pronto que tarde.
Imágenes | ByteDance
Ver 5 comentarios
5 comentarios
wiredbrain
Ojalá la integren en tiktok y que toda la gente la empiece a usar, siempre será mejor una IA que todos los usuarios de tiktok juntos, que entre todos suman una neurona.
Juankar
Obligarnos a aceptar cookies publicitarias es ilegal.
Según la Ley de Protección de Datos tenemos derecho a elegir las que queremos aceptar.
https://www.cuatrecasas.com/es/spain/propiedad-intelectual/art/entra-vigor-nuevo-criterio-aepd-uso-de-cookies
gemarimon
Impresionantes ha perdido el sentido que tenía como palabra me parece a mí.
partyghost
No puedo ver el vídeo :/