Venga, lo digo. Stable Diffusion es (para mí) el producto del año. Este motor de generación de imágenes vía inteligencia artificial se ha convertido en una verdadera revolución que con sus luces y sus sombras no para de evolucionar. Lo acaba de hacer de forma redonda con la publicación de su versión 2.0 que va aún más lejos de lo que ya fue la primera. Que ya es decir.
Stable Diffusion 2.0. Este "Linux de los generadores de imágenes por IA" acaba de anunciar su segunda versión estable, y aunque el anuncio detalla las mejoras, lo curioso es que la empresa que lo gestiona todo, Stability.ai, ni siquiera tiene una "landing page" propiamente dicha para Stable Diffusion. Su sitio web oficial es ni más ni menos que su repositorio de GitHub. Maravilloso, como demuestra el hecho de que es el proyecto de GitHub con mayor crecimiento de "estrellas" en toda la historia, superando de largo a anteriores destacados como Bitcoin, Ethereum o Apache Kafka, una plataforma de streaming de eventos.

Se mantiene como referente absoluto. No fue el primero -DALL-E 2 o Midjourney son igualmente alucinantes- pero la filosofía Open Source de Stable Diffusion ha sido crucial para posicionarse como el gran referente en este campo. Poder instalarlo en local o usarlo como complemento en otras aplicaciones como Photoshop o Canva ha demostrado un potencial casi ilimitado para creadores, empresas y usuarios convencionales.

La conversión texto-a-imagen se supera a sí misma. En esta versión se usa un nuevo codificador de texto a imagen llamado OpenCLIP que según los responsables del proyecto "mejora en gran medida la calidad de las imágenes generadas en comparación con las versiones V1". El motor mantiene los filtros para eliminar contenidos para adultos gracias al filtro NSFW de LAION-5B, el conjunto de imágenes que se ha usado para entrenar este modelo

Upscaling y más resolución que nunca. Aunque el motor nativamente genera imágenes de hasta 768x768 píxeles, en Stable Diffussion 2.0 se incluye un nuevo sistema de upscaling que mejora la resolución de las imágenes multiplicándolas hasta por cuatro. Así, es posible generar imágenes de 2.048x2.048 e incluso más, y hacerlo además con una definición fantástica.
Misma base para distintas imágenes. El modelo de difusión Depth-to-Image va más allá de lo que se lograba con la opción de imagen-a-imagen de la V1. Aquella opción permitía que hicieramos un boceto rápido de lo que queríamos obtener y Stable Diffusion generara la imagen basándose en eso y en el texto descriptivo de entrada (prompt). El nuevo modelo puede usar una imagen de base, pero genera no una, sino varias imágenes usando tanto el texto como la información de "profundidad" que da la imagen de partida.
Ver 23 comentarios
23 comentarios
pedrosalguera
Qué buena pinta, y no es posible probarlo online, entiendo, verdad?
KevinY
Si tienen una tarjeta NVidia con al menos 6GB de VRAM, les recomiendo usar el instalador de Automatic1111 para stable diffusion. Lo tienen corriendo en menos de 1 hora en su PC y sin limitaciones. Aqui un tutorial de instalacion:
https://www.youtube.com/watch?v=2nqG__LCPc4
Aqui un tutorial de instalacion y uso:
https://www.youtube.com/watch?v=JZSV3gayvD0
pedrocelma
¿Dónde se puede probar?
Usuario desactivado
A ver si algún día podéis publicar un tutorial de uso para Dummies
teokari
Enlace para descargar e instalar (poner el https con los dos puntos y la doble barra delante (no me deja poner la url completa, también son ganas de fastidiar)
github.com/cmdr2/stable-diffusion-ui#installation
Tampoco era tan dificil ponerlo en el artículo, que parezca que os duela hacer un poco más fáciles las cosas.
De todos modos, muchas gracias por la info.
Ricardo
y otra vez con "IA", solo es una app que mezcla imagenes, no ninguna "inteligencia"