Compressione immagini: Stable Diffusion vince su JPEG e WebP

Link copiato negli appunti

Il modello di sintesi delle immagini noto come Stable Diffusion garantirebbe un livello di compressione superiore rispetto a quelli ottenibili tramite alcuni standard per il Web come JPEG e WebP. A confermarlo sarebbe un recente studio dell'ingegnere svizzero Matthias Bühlmann.

Cos'è Stable Diffusion

Stable Diffusion è un modello di sintesi basato sull'Intelligenza Artificiale che generalmente viene utilizzato per la generazione di immagini in base a delle descrizioni testuali o prompt. Tale capacità è stata ottenuta tramite un training di Machine Learning incentrato sull'analisi di immagini prelevate da Internet.

In sostanza la fase di apprendimento di Stable Diffusion, che è ancora in corso, viene effettuata individuando delle corrispondenze tra le immagini analizzate e le parole ad esse associate. Fatto questo le immagini vengono catalogate in base ad un valore denominato "weight", cioè una metrica che consente di valutare quanto la AI conosce relativamente ad un file.

Stable Diffusion e compressione delle immagini

La versione 1.4 di Stable Diffusion effettuerebbe un processo di compressione tale che attualmente il suo catalogo peserebbe appena 4GB a fronte di centinaia di milioni di immagini analizzate. A partire da questa osservazione Bühlmann avrebbe rimosso tutta la parte relativa all'encoding testuale per concentrarsi su quello delle immagini.

Fatto questo sarebbe riuscito ad ottenere degli output 64x64 a precisione elevata partendo da dei sorgenti 512x512 a bassa precisione. Tali output sono in realtà delle rappresentazioni dei file originali e questo consente di decodificarli in modo da riottenere le immagini 512x512 di base.

Stando ai risultati ottenuti, un'immagine dal peso originale pari a 768KB sarebbe stata compressa fino a 5.66KB utilizzando il formato JPEG, fino a 6.74KB con WebP e fino a 4.97KB con Stable Diffusion.

A ciò si aggiunga che nonostante la perdita in termini di "peso", l'immagine ottenuta tramite Stable Diffusion apparirebbe più dettagliata e le modifiche dovute alla compressione risulterebbero meno evidenti.

I limiti di Stable Diffusion

Come ammesso dallo stesso Bühlmann, questa tecnica non sarebbe adatta per la compressione di immagini che contengono dei volti umani o dei testi, inoltre Stable Diffusion potrebbe aggiungere dei dettagli che non hanno nulla a che vedere con le immagini originali.