JOHANSSON om AI som illegal hitmakare

Den nya AI-plattformen Udio slår allt som tidigare lanserats. Hur ska stormen av AI-genererade låtar hanteras? När börjar utvecklingen påverka intäkterna till rättighetshavare?

Det är ett och ett halvt år sedan den första tjänsten för promptbaserat musikskapande släpptes, Riffusion. Kvaliteten på outputen i den första versionen var mycket dålig, men redan då dristade jag mig till att skriva:

”Jag tror att det här är en mycket större fråga än enbart musik. Det handlar om det största skifte människan har gått igenom på lång tid, troligen större än vad hela den digitala informationsteknologin inneburit hittills, och kommer kräva mycket större juridiska uppdateringar än enbart för upphovsrätten.

Skiftet kommer att påverka hur vi ser på kreativitet i stort, vad som är unikt mänskligt, och jag tror människans självbild kommer få sig en rejäl törn på vägen. Det som vi tidigare geniförklarat, avgudat och dyrkat, kan mycket väl blekna när AI blir bättre än oss på det mesta.

Jag sticker ut hakan och säger samma sak som jag sagt många gånger tidigare: Det är klart AI kommer bli bättre än människan på att skapa musik, litteratur, konst, filmer osv. Det är bara en fråga om tid.”

När f.d. utvecklare och forskare från Google DeepMind nu lanserar Udio i betaversion vete tusan om vi inte nästan redan är där. Här några exempel:

– Prompten ”Barbershop, rhythmic, happy, melodic, playful, vocal group, warm, 1950s” ger det här.

– Prompten ”Americana, country, bluegrass, melodic, passionate, lush, rhythmic, male vocalist, anthemic” ger det här.

– Eller prompten ”A Swedish hit pop song, positive, love, Eurovision”, som ger det här.

– Och så min favorit so far, folkmusiklåten Siúil a Rúin på det speciella språket shelta, ett litet, litet språk (50 000 personer) som talas av resande på Irland och i delar av Storbritannien.

Visst, det är absolut inte perfekt, det finns typiska AI-artefakter, men Udio gör det möjligt för de som använder verktyget att bygga vidare på musiken, göra den längre, mixa om, ändra i texten, ändra hur rösten låter, och liknar mer ett riktigt verktyg för musikskapare. Det enda som saknas är att kunna skjuta ut spåren till en DAW, och jobba vidare i andra miljöer med musiken. Men det kommer, det här gänget har målet att en gång för alla revolutionera musikskapandet, och de har just fått 100 miljoner kronor att leka med.

Vad har den underliggande modellen tränats på?

Precis som andra plattformar råder ingen som helst transparens, men i en lång intervju med MusicAlly säger VD-n David Ding:

”For language models and image models, it has really been demonstrated that to get high-quality output, you have to train on lots of high-quality inputs. And by doing so you get a model that doesn’t reproduce outputs that it saw in the training. It’s able to generalise in a way that makes it useful for creatives. (…) And so we view this in the same way for music. I can only get high-quality outputs if we train on a large amount of publicly-available and high-quality music.”

För en gammal symfonirockare som mig är det uppenbart vad t ex inspirationen till låten Kayleigh II kommer från, till en början är det Genesis med Peter Gabriels sång, vid 2:49 blir det Yes med Jon Andersons sång, för att sedan avslutas med lite Marillion och Fish’s sång vid 3:10 (därav namnet också, en tydlig referens till Kayleigh från 1985).

Att prompten är ”In the style of Marillion and Fish ”Kay-lee Is Happy Now” gör egentligen inte saken bättre, det visar bara ännu tydligare att träningen har skett på dessa kataloger.

Ding fortsätter:

”The goal here, obviously, is not to reproduce the Beatles or stuff like that. If I want to reproduce the Beatles, I could just listen to the Beatles! It’s to understand the fundamental underpinnings of music, and take this knowledge and use it to create transformative new music that’s inspired by existing music, but is completely novel. And that’s why we have very strong artist filters and a copyright focus, to make sure that we don’t regurgitate anything copyrighted.”

Behovet av att snabbt få till regler kring hur modeller tränas, inte bara i teorin, utan i praktiken, blir tydligare för varje minut som går. I min värld är det här inget annat än ett grovt intrång i såväl upphovsrätten som de närstående rättigheterna, det är ett illegalt hitmakande.

Här ett expriment med prompten ”In the style of Veronica Maggio…”, även om det mer låter som Laleh kommer in där efter 13 sekunder: Dröm för två

Jag tror inte att den här musiken är ett hot mot riktiga mänskliga artister på kort sikt, dvs ett par år framåt. Vi människor älskar andra människor, och utan en artistisk kontext spelar det ingen roll om AI-musiken är lika bra eller bättre än den som vi människor skapar, med vår röriga kreativitet. Däremot kan vi kanske rätt snart börja säga hejdå till mänskligt skapad moodmusik, hissmusik, produktionsmusik och bakgrundsmusik. Synkronisering kommer förändras för alltid.

Film och tv-producenter kommer börja blanda ”riktig” musik med AI-musik, allt utifrån vilka behov de har, och när TuneTaxi börjar paketera AI-musiken för affärsverksamheter med start i maj, lär allt fler gå över till den billiga musiken.

När kommer det börja påverka intäkterna till traditionella rättighetshavare i musikindustrin?

Som jag skrivit många gånger tidigare tycker jag det finns mycket i den här utvecklingen som påminner om vad som hände kring piratkopieringen för 25 år sedan.

Napster blev den första stora plattformen för illegal fildelning, som lanserades den 1 juni 1999. I mars 2000 lanserades Gnutella, i oktober 2000 DC++, och i september 2001 lanserades Kazaa. Det var först där, under hösten 2001 som effekterna började synas på intäkterna i branschen, med 2002 som det första året med tydliga nedgångar.

Kommer vi se samma sak här? På vissa områden, ja. Stim kommer få minskade intäkter på vissa områden, helt övertygad. Kanske blir 2024, eller 2025, året när det börjar synas. Det skulle i så fall rimma ganska väl med den fördröjning om ca 2-3 år som vi såg med den illegala fildelningen.

Vad det gäller PROs överlag är jag förvånad över att man fortfarande inte har infört krav på musikskapare och förlag att ange om ett verk är AI-genererat eller inte när man registrerar musiken, med hot om att exkludera musiken om man inte följer reglerna. Eller, egentligen tycker jag det är märkligt att det ens är möjligt att registrera AI-genererad musik, brus och annat. Liksom jag tycker det är märkligt att det fortfarande inte finns några licenser för de aktörer som vill använda katalogerna för att träna upp sina modeller.

På det sättet tycker jag att branschen reagerar lite likadant som för 25 år sedan, man släpper upprop, man är aktiva för att få fram ny lagstiftning, man börjar lite försiktigt inleda juridiska processer mot några av plattformarna, och det är gott så, men jag menar att det viktigaste arbetet handlar om att se till att släppa, eller stötta, licensierade och lagliga alternativ, och själv ligga i frontline för förändringen.

Såväl röstkloning av typen Voicify, som promptbaserat musikskapande med Suno, Stable Audio och Udio, är här för att stanna, och endera är verktygen som folk använder helt utanför det upphovsrättsliga systemet, eller så är de en naturlig del av det.

Kommer utvecklingen innebära att privatpersoner på sikt börjar sluta betala för Spotify och andra streamingplattformar? Det beror på hur långt man låter utvecklingen skena utan att själv bli en fundamental del av den. Det är en sak att skriva offentliga brev och lobba i Bryssel, det är en helt annan sak att finnas med i utvecklingen av framtidens tjänster och verktyg.

Nästa plattform som lanseras, eller befintliga som uppdateras, kommer ta kvaliteten och användarvänligheten ytterligare ett steg framåt, och så kommer det fortsätta under de kommande åren. Eller som en mycket initierad och välbekant branschperson sade när jag visade Udio för ett par dagar sen: ”Jag säger hela tiden till mig själv ”detta är bara början”. Om och om igen.”

Frågan är bara vad det är början på.

Daniel Johansson
daniel@musikindustrin.se