#2 RunwayML: Gen-3 tekst naar video generator

#2 RunwayML: Gen-3 tekst naar video generator

· Tools

Auteur: Jasper Vis

Media Innovation Hub test: RunwayML Gen-3 

RunwayML is een veelzijdige AI-toolset die mediaprofessionals helpt bij het bewerken en genereren van beeld-, video- en audiocontent. Gen-3 is gericht op tekst naar videocreatie. 

Impact

★★★★★

RunwayML’s Gen-3 technologie betekent een enorme stap voorwaarts in AI-gedreven videoproductie. Gebruikers kunnen nu video's genereren die voorheen ondenkbaar waren, met een hoog realisme en detailniveau. 

Gebruiksvriendelijkheid

★★★★★

Kenmerkend voor RunwayML in het geheel is de eenvoud in gebruik door een heldere interfaceen dat zie je ook bij Gen-3 terug. Wat fijn is aan RunwayML Gen-3 is dat het je in staat stelt om snel videobeeld te genereren. Resultaatgericht werken kan nog lastig zijn, omdat een iteratief maakproces niet ondersteund wordt.  

Runway ondersteunt de C2PA-standaard, een open technische standaard waarmee uitgevers, makers en consumenten de herkomst van verschillende soorten media kunnen traceren. Kijk ook eens naar TruePic.

Prijsstelling 

★★☆☆☆

Wil je echt aan de slag met deze tool, dan is een dikkere portemonnee een aanrader. Het standaard abonnement geeft je 625 credits voor 12 dollar per maand wat gelijk staat aan iets meer dan een minuut video. Het Pro-abonnement geeft net iets meer ruimte voor experiment met 2250 credits voor 28 dollar per maand.

Enorme stap voorwaarts

De technologische vooruitgang gaat razendsnel. Waar we nog maar enkele weken geleden onder de indruk waren van OpenAI’s Sora en Google’s VEO, hebben we nu toegang tot RunwayML’s nieuwste tool: de Gen-3 Alpha tekst-naar-video generator. Terwijl de video tools van OpenAI en Google nog niet beschikbaar zijn voor het publiek, kunnen gebruikers met een standaardabonnement nu al aan de slag met Gen-3 Alpha. Tekst-naar-video is een snelgroeiende sector binnen AI, met een geprognotiseerde groei van 37,1% richting 2027.

RunwayML’s Gen-3 technologie betekent een enorme stap voorwaarts in AI-gedreven videoproductie. Gebruikers kunnen nu video's genereren die voorheen ondenkbaar waren, met een hoog realisme en detailniveau. Dit opent nieuwe creatieve mogelijkheden voor makers die voorheen beperkt waren door budgetten. Denk aan een clown die door een steegje in Rio de Janeiro rent of een potlood dat een tekening maakt.

Gen-3 biedt verbeterde consistentie, beweging en nauwkeurigheid ten opzichte van eerdere generaties (Gen-1 en 2), met meer controle over structuur, stijl en beweging. Dat zit voornamelijk in het feit dat je in je prompt het onderwerp, de scene (wat gebeurt er met het onderwerp), de licht-setting, de camera en de camerabeweging kan beschrijven.

Testen in de praktijk

Krijg je alleen met zeer gedetailleerde prompts een goed eindresultaat? We namen de proef op de som en werkten van eenvoudig naar meer complexiteit toe; steeds op basis van dezelfde scene. En dan vallen enkele dingen op.

De web interface van RunwayML werkt snel en eenvoudig. Na het inloggen is een grote header met de aankondiging van Gen-3 het eerste dat opvalt. De startknop brengt ons direct naar een eenvoudige web interface met daarbij ook direct een link naar verdere uitleg, want met alle mogelijkheden die Gen-3 biedt, is het neerzetten van een goede prompt een must. En voor elke prompt geldt; hoe meer detail hoe beter het resultaat. Maar… hoe meer je beschrijft hoe meer Gen-3 de aandacht verdeelt. Denk dus goed na alvorens je start.

Aan de slag met onze eerste prompt dan maar. We kiezen voor een video van 5 seconden en voor de setting ‘Fixed seed’ om volgende renders consistent te houden. Voor het ultieme vakantiegevoel alvast iets wat tot de verbeelding spreekt:

The camera seamlessly flies over the ocean towards a tropical island. 

En dit is ons resultaat: 

Tip: Hogere resolutie voor de door jou gegenereerde video nodig? Denk eens aan een AI video upscaler. 

Op naar een iets complexere situatie:

Continuous hyperspeed FPV footage: The camera seamlessly flies over the ocean towards a tropical island.

Het resultaat is een mooi drone-shot en nog steeds in de stijl van onze eerste video.

Tip: Gebruik de functie ‘Custom Presets’ om je settings op te slaan voor gebruik later als je tevreden bent met je resultaat.

Laten we verkennen wat er gebeurt op het moment dat we onze prompt iets uitbreiden en de condities nauwkeuriger beschrijven:

Continuous hyperspeed FPV footage: The camera seamlessly flies over the ocean towards a tropical island. The water has superlarge waves. It is very windy. Dark clouds with thunderstorms in the background.

De condities zijn conform de verwachting, maar het perspectief van de camera is duidelijk veranderd. Mooi shot nog steeds. Het kunnen controleren van de condities is erg interessant. In de echte wereld is het praktisch onmogelijk om te wachten op de ideale condities voor dit shot en dan ook nog op een locatie ver weg. Eén van de grootste voordelen van deze technologie.

Op naar het toevoegen van meer complexiteit en surrealisme:

Continuous hyperspeed FPV footage: The camera seamlessly flies over the ocean towards a tropical island. The water has superlarge waves. It is very windy. Dark clouds with thunderstorms in the background. A large pink whale is jumping out of the water.

En hier gaat het fout wat ons betreft. Het is duidelijk dat de AI netjes de opdracht uitvoert en ook consistent onze walvis tekent, maar het gedrag van de walvis komt niet overeen met wat we verwachten. De walvis lijkt eerder op een surfplank voort te bewegen. Is dit erg? Nee, we hebben hier nog te maken met een Alpha-versie. Het genereren van objecten in en vooral op vloeistoffen is nog lastig en vergt meer training van de modellen. Verwachting is dat als we dezelfde prompt in de nabije toekomst nogmaals gebruiken we een beter resultaat qua beweging gaan krijgen. Een rating kunnen geven aan een gegenereerde video zou daarbij handig zijn en zit een beetje verstopt in de interface. Door op de video te klikken, verschijnt rechtsonder een ratingknop met de optie om feedback te kunnen geven op wat er fout gaat. Dit kan niet bij reeds eerder gegenereerdecontent welke al opgeslagen is in je Assets.

Misschien krijgen we een beter resultaat door de walvis te vervangen door een dolfijn en we laten de camera nu tracken (meebewegen met het object):

Tracking: We follow a dolphin swimming in the ocean towards a tropical island. The water has superlarge waves. It is very windy. Dark clouds with thunderstorms in the background, diffused lighting , sunset, style: cinematic

Resultaat: Tracking werkt goed, dolfijn lijkt op een orka en de beweging van onze dolfijn is dezelfde als bij de walvis. Laten we het over een andere boeg gooien.. 

Het gevoel van een tropisch eiland gaat al gauw gepaard met het beeld van piraten of ligt dat aan ons en zitten jullie meer in de richting van Temptation Island? Onze prompt:

Tracking: We follow an old pirate ship in the ocean sailing towards a tropical island. The water has superlarge waves. It is very windy. Dark clouds with thunderstorms in the background, diffused lighting , sunset, style: cinematic; the camera zooms in on the face of a pirate onboard

Dit ziet er al heel filmisch uit. Binnen de video blijft het karakter, maar ook de objecten consistent gedurende de gehele video. Dus geen rare artefacten en zogenaamde ‘morphing’ (overgangen van een persoon of object in een andere persoon of object). Indrukwekkend!

Laten we als laatste proberen om hier een korte promo van te maken door aan onze prompt nog een stukje titelscherm toe te voegen en te kijken naar het resultaat, want wat zouden we graag dit stukje video willen gebruiken als basis voor de promo. Dit is onze prompt:

Tracking: We follow an old pirate ship in the ocean sailing towards a tropical island. The water has superlarge waves. It is very windy. Dark clouds with thunderstorms in the background, diffused lighting , sunset, style: cinematic; the camera zooms in on the face of a pirate onboard. Add a title with the text "Runaway" with dynamic movement painted with red paint. The dripping paint is detailed and textured.

Toegegeven: het is een titelscherm en enigszins in de stijl, maar het zou mooi zijn geweest een soortgelijk beeld met piraat en titel te genereren. Ook hier hopen we op een beter resultaat in de nabije toekomst.

Itereren op bestaand beeld is voor nu in ieder geval een no-go. Dit betekent dat je geen kleine aanpassingen kan doen aan videobeeld welke net gegenereerd is. En dat is echt een groot gemis. Heb je net lekker beeld en wil je daar nog een titel overheen leggen? Zou  je toch echt in een ander programma moeten gaan doen. Klein detail veranderen of bijvoorbeeld een lichtsetting aanpassen. Niet mogelijk. En dat maakt Gen-3 eigenlijk alleen geschikt voor het maken van b-roll content; de content die we gebruiken als opvulling.

Tip: Zelf aan de slag met prompting? Soms helpt het om ChatGPT of Microsoft’s CoPilot in te zetten om een goede prompt voor je te schrijven.

Conclusie

RunwayML's Gen-3 technologie is een significante vooruitgang in de wereld van video generatie.De beelden zijn complex, realistisch en van hoge kwaliteit. Je raakt al gauw verdwaald in de mogelijkheden die Gen-3 biedt en zoals je in dit artikel ziet, is afdwalen nog wel je grootste risico. Heerlijk overigens en het voelt als zappen op TV of swipen door Insta met een hoog dopamine-gehalte, maar voor resultaatgericht werken minder praktisch. Op het moment dat je een goed beeld hebt gegenereerd, wil je daarmee verder werken en dat is nog lastig.

Is het gebruiken van Gen-3 goedkoop? Niet bepaald. Voor een video van 10 seconden betaal je 100 credits. Omgerekend op basis van het standaard abonnement is dat ruim € 1,- voor 10 seconden video. Dat is behoorlijk prijzig, maar het is misschien de prijs die we betalen om als eerste met de tool te kunnen experimenteren.

We kwamen een enkel foutje tegen bij het renderproces met de melding “Generation failed”. Uiteindelijk konden we dat verhelpen met het plaatsen van een spatie tussen een aanhalingsteken en het daaropvolgende woord. Typo van onze zijde. Prompt optimalisatie zou een handige extra feature zijn.