Il colosso delle GPU Nvidia ha presentato il suo nuovo progetto chiamato Magic3D che permette di generare dei modelli tridimensionali a partire da una descrizione testuale. Per dimostrare le potenzialità di questa piattaforma durante il test di lancio, in circa 40 minuti è stata prodotta l'immagine 3D di una rana poggiata su una foglia che galleggia nell'acqua a partire dall'input "A blue poison-dart frog sitting on a water lily".
Come funziona Magic3D
Come ammesso dagli stessi ricercatori dell'azienda di Santa Clara, Magic3D si propone come alternativa alla tecnologia DreamFusion di cui Google ha dato notizia lo scorso settembre. A livello tecnico la soluzione di Nvidia utilizza un modello generativo da testo a immagini per restituire un output bidimensionale. L'immagine 2D viene poi rielaborata perché acquisisca volume grazie all'integrazione di dati NeRF (Neural Radiance Field).
In questo modo, viene prodotto innanzitutto un modello in bassa risoluzione prossimo all'output desiderato, successivamente vengono aggiunti ulteriori dati fino all'ottenimento di un'immagine ad alta risoluzione.
Differenze tra Magic3D e DreamFusion
Stando a quanto riportato nella documentazione di Magic3D, utilizzando questa procedura dovrebbe essere possibile generare immagini tridimensionali nella metà del tempo rispetto a quanto non sarebbe possibile con l'alternativa di Mountain View.
Un altro vantaggio di Magic3D risiede nel fatto che si tratta di una tecnologia estremamente reattiva, questo significa che l'input testuale (o prompt) potrà essere modificato influendo sul risultato finale e quindi alterandolo a seconda delle correzioni apportate all'istruzione di base.
Magic3D viene proposto come una piattaforma destinata a "democratizzare" le tecniche di modellazione 3D basate sul text-to-image. Questo perché è stata studiata in modo da poter essere utilizzata facilmente anche da chi non possiede conoscenze tecniche avanzate in questo settore.
La proposta di Nvidia viene così ad aggiungersi ad altre soluzioni dello stesso tipo, ma per ora più note, come per esempio Stable Diffusion e DALL-E.