Vergeet software die afbeeldingen maakt: Google ontwikkelt AI die 3D-objecten kan genereren uit tekst

In 2022 lijken programma’s die afbeeldingen genereren uit tekstinputs, zoals DALL-E 2, opeens als paddenstoelen uit de grond te rijzen. Maar Google is al bezig met de volgende stap: de techgigant is software aan het ontwikkelen die tekst kan omzetten in 3D-modellen.

Dat werd eind september bekendgemaakt in een paper. Het programma dat wordt ontwikkeld, DreamFusion, bouwt eigenlijk voort op Dream Fields, een gelijkaardige software uit 2021. Beide programma’s werken door een NeRF, een neuraal netwerk dat 3D afbeeldingen kan genereren uit 2D-datasets, te combineren met een op voorhand getraind model dat tekst naar afbeeldingen om kan zetten. 

Maar in tegenstelling tot die vorige versie, die gebruik maakte van technologie van OpenAI, gebruikt DreamFusion technologie die binnenshuis werd ontwikkeld. Dream Fields gebruikte immers data van DALL-E, maar voor DreamFusion werd gekozen voor Imagen, Google’s eigen kunstmatige intelligentie (AI) die afbeeldingen kan genereren uit tekst. 

Ben Poole, een van de auteurs van de paper, kondigde de software op Twitter aan. “Blij om DreamFusion aan te kondigen, onze nieuwe methode voor tekst-naar-3D!”, staat er te lezen. In een tweede tweet verwijst de onderzoeker naar een online galerij die Google publiceerde, waarin honderden voorbeelden te bezichtigen zijn. 

Uit de galerij blijkt meteen dat, hoewel de meeste afbeeldingen accuraat afbeelden wat er gevraagd wordt, de grafische kwaliteit nog te wensen overlaat. Ook komen sommige 3D-modellen niet volledig overeen met de tekst. Zo is er een afbeelding van een “babydraak” die opvallend hard op een normale hagedis lijkt, of is er een model van een banaan die poker speelt, terwijl de tekst vroeg voor zowel een banaan als een maïskolf. 

Toch spreken de makers van een grote stap vooruit. De afbeeldingen zijn volgens hen “coherent, met hoogwaardige normalen, oppervlaktegeometrie en diepte, en zijn herlichtbaar met een Lambertiaans schaduwmodel”. In mensentaal betekent dit dat, hoewel de software nog niet helemaal in staat is om fotorealistische beelden te maken, alle ingrediënten daarvoor nu aanwezig zijn. Denk daarbij bijvoorbeeld aan proporties die realistisch zijn, iets waar open source software zoals DALL-E mini nog moeite mee heeft.

Een reeks afbeeldingen die gegenereerd zijn met DALL-E mini. Opvallend is onder andere dat de proporties niet realistisch zijn.

(jvdh)

Meer