Llega Stable Diffusion 2.0 y sus nuevas opciones para generar imágenes con IA nos dejan más boquiabiertos que nunca

28 comentarios Facebook Twitter E-mail

24 Noviembre 2022 Actualizado 30 Enero 2023, 12:44

Javier Pastor

Venga, lo digo. Stable Diffusion es (para mí) el producto del año. Este motor de generación de imágenes vía inteligencia artificial se ha convertido en una verdadera revolución que con sus luces y sus sombras no para de evolucionar. Lo acaba de hacer de forma redonda con la publicación de su versión 2.0 que va aún más lejos de lo que ya fue la primera. Que ya es decir.

Stable Diffusion 2.0. Este "Linux de los generadores de imágenes por IA" acaba de anunciar su segunda versión estable, y aunque el anuncio detalla las mejoras, lo curioso es que la empresa que lo gestiona todo, Stability.ai, ni siquiera tiene una "landing page" propiamente dicha para Stable Diffusion. Su sitio web oficial es ni más ni menos que su repositorio de GitHub. Maravilloso, como demuestra el hecho de que es el proyecto de GitHub con mayor crecimiento de "estrellas" en toda la historia, superando de largo a anteriores destacados como Bitcoin, Ethereum o Apache Kafka, una plataforma de streaming de eventos.

¿No encontrais Stable Diffusion? Normal, porque parece el eje de coordenadas Y. Está ahí, a la izquierda del todo, casi como una pared vertical del resto. Espectacular. Fuente: A16z.

Se mantiene como referente absoluto. No fue el primero -DALL-E 2 o Midjourney son igualmente alucinantes- pero la filosofía Open Source de Stable Diffusion ha sido crucial para posicionarse como el gran referente en este campo. Poder instalarlo en local o usarlo como complemento en otras aplicaciones como Photoshop o Canva ha demostrado un potencial casi ilimitado para creadores, empresas y usuarios convencionales.

La conversión texto-a-imagen se supera a sí misma. En esta versión se usa un nuevo codificador de texto a imagen llamado OpenCLIP que según los responsables del proyecto "mejora en gran medida la calidad de las imágenes generadas en comparación con las versiones V1". El motor mantiene los filtros para eliminar contenidos para adultos gracias al filtro NSFW de LAION-5B, el conjunto de imágenes que se ha usado para entrenar este modelo

Upscaling y más resolución que nunca. Aunque el motor nativamente genera imágenes de hasta 768x768 píxeles, en Stable Diffussion 2.0 se incluye un nuevo sistema de upscaling que mejora la resolución de las imágenes multiplicándolas hasta por cuatro. Así, es posible generar imágenes de 2.048x2.048 e incluso más, y hacerlo además con una definición fantástica.

Misma base para distintas imágenes. El modelo de difusión Depth-to-Image va más allá de lo que se lograba con la opción de imagen-a-imagen de la V1. Aquella opción permitía que hicieramos un boceto rápido de lo que queríamos obtener y Stable Diffusion generara la imagen basándose en eso y en el texto descriptivo de entrada (prompt). El nuevo modelo puede usar una imagen de base, pero genera no una, sino varias imágenes usando tanto el texto como la información de "profundidad" que da la imagen de partida.