I helgen fick jag för mig att undersöka hur långt man kan komma på några timmar med att bygga en mer komplex AI-genererad upplevelse. Det blev ett slags experiment i att kombinera ett antal olika tekniker och tjänster för att pröva vad som händer när man använder AI inte bara som ett enskilt verktyg, utan som en hel verktygslåda.
Utgångspunkten blev en satirisk musikvideo, med formatet rap battle som ram. Temat hämtades från det ständigt återkommande mediespektaklet kring Elon Musk och Donald Trump, där rollerna och retoriken stundtals är svåra att särskilja från teater. Jag ville se vad som händer om man, med hjälp av AI, iscensätter en konflikt mellan dem, fast i musikalisk form.
För att komma igång använde jag Perplexity AI för att få en aktuell bild av konflikten – ett slags snabb researchmotor som hämtar in och summerar information från webben. Det materialet blev grunden för den text Claude (Anthropics språkmodell) sedan bearbetade till en första version av en rap battle. Därifrån följde ett antal iterationer, där jag gick in och justerade texten, bad Claude formulera stilinstruktioner till Suno, som i sin tur genererade musik.
När ljudfilen var på plats separerade jag sång från text, och lät två AI-baserade röster – baserade på RVC/Applio– ge liv åt Trump och Musk. Det krävde en del finjustering, men resultatet blev ändå rätt övertygande. För det visuella använde jag Flux1 via ComfyUI för att skapa en serie stillbilder – både karaktärsporträtt och bakgrundsbilder. Dessa matades, tillsammans med det klippta ljudspåret (redigerat i Hindenburg), in i HeyGen, som genererar animerad video utifrån ljud och bild. Slutligen använde jag CapCut för redigering och lade på undertexter med hjälp av Claude.
Den färdiga videon fick titeln Battle of the Billionaires, och är kanske mer ett tankeexperiment än ett konstverk. En sorts satirisk reflektion över samtiden, där AI fungerar som både spegel och förstärkare.
Det som tog mest tid var att jaga ett ganska envist programmeringsfel, men utöver det landade hela processen på omkring fyra timmar. Ett snabbt hack, men med många lärdomar. Framför allt blev det tydligt hur komplext det är att arbeta med AI som kreativt material när man rör sig bortom enkla uppgifter. Att generera text, bild eller ljud var för sig är en sak – att få dem att samverka kräver en annan sorts engagemang och teknik. Kanske ligger just där en intressant tröskel, mellan det som verkar enkelt och det som faktiskt fungerar.