Home » Un nuovo generatore di immagini per l’IA fa più di SDXL con meno

Un nuovo generatore di immagini per l’IA fa più di SDXL con meno

by Patricia

Stability AI, l’azienda che ha creato il popolarissimo generatore di immagini Stable Diffusion, ha appena lanciato un’altra granata nell’agguerrita arena dell’AI.

Il nuovissimo Stable Cascade di Stability, alimentato dalla nuova architettura open-source Würstchen, offre un approccio altamente efficiente e modulare alla generazione di testo-immagine, bilanciando qualità, velocità e adattabilità.

Secondo l’azienda, il modello raggiunge un fattore di compressione mai visto prima nei modelli tradizionali di Diffusione Stabile ed è in grado di produrre risultati di maggiore risoluzione e dettaglio, paragonabili a generatori moderni come SDXL o MidJourney (che in genere lavorano con risoluzioni di 1024×1024).

Immagine: Stability AI

Immagine: Stability AI

Ingredienti della Würstchen

Stable Cascade adotta un processo a tre fasi, diverso dalla tradizionale pipeline Stable Diffusion:

  • Fase A: il compressore di immagini: A differenza dei modelli tipici, questa fase iniziale elabora le immagini come un puzzle avanzato. Utilizzando una Vector-Quantized Generative Adversarial Network (VQGAN), l’immagine viene tagliata in sezioni compatte da 256×256. Ogni sezione riceve un “token” discreto da un codebook specializzato. Questa fase apre la strada a un’elaborazione rapidissima nelle fasi successive.
  • Fase B: il ricostruttore (Latent Diffusion Model) Questa fase gestisce il lavoro di ricostruzione dell’immagine dopo la compressione. È come un abile restauratore di edifici che utilizza istruzioni dettagliate e progetti per il suo lavoro.
  • Fase C: il generatore di latenti condizionato dal testo La fase C si concentra esclusivamente sull’elaborazione di istruzioni basate sul testo e sulla produzione di latenti compressi. Questo approccio disaccoppiato alla generazione del testo riduce drasticamente la complessità e il costo della messa a punto per casi d’uso specifici.
Immagine: Stability AI

Immagine: Stability AI


In altre parole, fa quello che il nome suggerisce. Inizia con un generatore di testo che sforna piccole istantanee di immagini, che vengono gonfiate in una più dettagliata e poi presentate correttamente ai vostri occhi come un’immagine di alta qualità a piena risoluzione.

Vantaggi modulari

Il design modulare di Stable Cascade, secondo gli sviluppatori, offre numerosi vantaggi. Il primo è l’estrema efficienza: grazie allo spazio latente compresso (il modo in cui un’intelligenza artificiale valuta la composizione dell’immagine rispetto allo spazio dei pixel, che è ciò che gli esseri umani vedono) e al modello Stage C focalizzato, Stable Cascade raggiunge tempi di inferenza più rapidi, il che significa che calcola le sue previsioni più velocemente. E lo fa con requisiti hardware significativamente ridotti rispetto ai modelli Stable Diffusion più grandi come SDXL.

I test interni di Stability AI hanno dimostrato la capacità di Stable Cascade di superare costantemente modelli analoghi come SDXL in termini di qualità dell’immagine e di estetica. Inoltre, il modello raggiunge questi risultati a velocità molto elevate, richiedendo al contempo un numero significativamente inferiore di risorse computazionali.

Immagine: Stability AI

Immagine: Stability AI


Un altro vantaggio che Stability AI rivendica è la sua versatilità. Molti degli strumenti che gli artisti di Stable Diffusion utilizzano oggi per perfezionare il loro lavoro, come ControlNets o LoRas, sono compatibili. Inoltre, grazie alla sua estrema efficienza, gli utenti possono aggiungere altri strumenti ai loro flussi di lavoro senza dover collassare le loro memorie.

L’architettura leggera del modello, l’ingombro ridotto e la compatibilità con hardware di calcolo meno potente abbassano la barriera d’ingresso, aumentando l’accessibilità delle tecniche avanzate di generazione da testo a immagine sia per gli utenti occasionali che per i ricercatori.

Fare di più con meno


I nostri test hanno rilevato che il modello è accurato e dettagliato e non presenta l’estetica slavata e gommosa dei precedenti modelli SDXL turbo o LCM di Stability AI. Al contrario, genera immagini altamente dettagliate, alla pari con i modelli SDXL perfezionati.

Ha anche alcune capacità di generazione di testo di base, che possono essere ulteriormente migliorate con i LoRA già disponibili in archivi online come Civitai.

Stability AI riferisce che, nonostante ospiti un numero maggiore di parametri rispetto a Stable Diffusion XL, Stable Cascade gode comunque di tempi di inferenza più rapidi ed eccelle nell’allineamento immediato.

Anche la messa a punto di Stable Cascade richiede meno risorse rispetto ai modelli Stable Diffusion di dimensioni simili. Ricercatori e appassionati possono potenzialmente addestrare il modello su insiemi di dati più piccoli e con una potenza di calcolo notevolmente inferiore, il che lo rende molto efficiente dal punto di vista dei costi.

Stable Cascade è rilasciato con una licenza di ricerca non commerciale ed è prontamente disponibile sul repository GitHub di Stability AI, con un flusso di lavoro ComfyUI gestito dalla comunità già disponibile che scarica automaticamente i modelli per una maggiore facilità d’uso.

Related Posts

Leave a Comment