Johansson: Sonauto utmanar

En ny plattform för AI-genererad musik väcker just nu mycket uppmärksamhet. Daniel Johansson tänker att AI-musiken kanske är på väg in i en ny fas.

Ryan Tremblay och Hayden Housen, som båda pluggat datavetenskap på Cornell University i New York och tagit sin examen de senaste åren, släppte för ett par veckor sedan den tredje versionen av sin AI-modell för musik, på Sonauto. Den är något annat än vad andra plattformar för generativ AI hittills har varit.

Det går att generera ny musik med i stort sett vilken någorlunda känd artists röst som helst, det går att bygga vidare på all musik som har släppts genom historien, och modellen använder sig flitigt av såväl texter som melodier om man ber den om det.

En prompt som ”A new Zara Larsson song that is uptempo and positive” returnerar mycket riktigt låtar som låter precis som Zara Larsson. Jag har testat med många svenska artister, The Hives, In Flames, ABBA, Tove Lo, Avicii, Swedish House Mafia, Roxette, Ace of Base, First Aid Kit, och många fler, och resultaten är anmärkningsvärda.

Återgivningen av artisternas sångröster och artistens ”sound” är mycket realistiska. Det faktum att man också kan använda enskilda låtar som grund, som prompten ”Make a variation on the song Hooked on a Feeling by Blue Swede”, eller ”Combine the songs Waterloo and It Must Have Been Love, and let Elvis Presley sing it”, ger resultat som ingen annan plattform tidigare har levererat.

Plattformen är gratis att använda, men om man vill använda API-et kostar det. Att API-et finns till för att massproducera musik råder det ingen tvekan om. Det kostar 1 150 USD/mån att använda API-et för att generera 28 750 låtar i månaden.

Om inte den här plattformen kommer utmana branschen, så vet jag inte vilken plattform som kommer göra det, och bakgrunden till lanseringen av den senaste modellen är intressant.

De båda grundarna, två unga datavetare med skarp utbildning inom maskininlärning, har gjort det här möjligt med den i sammanhanget lilla påsen pengar på 2,3 miljoner USD, som de fick 2024. De har inte heller hymlat om sin starka koppling till open source-världen, vilket skulle kunna bli betydelsefullt.

Sonauto verkar just nu vilja bygga en affär genom att locka så många användare som möjligt, samtidigt som man testar olika former av abonnemangslösningar. Men, är det sätt som Sonauto har använt musikhistorien på när de tränat sin modell, samt det sätt man genererar output på, ett intrång i upphovsrätten?

Tveklöst.

Jag misstänker att inom en mycket snar framtid kommer branschens aktörer reagera mot den här plattformen. Det här är som jag ser det den första riktiga ”Napster” för AI-musiken, om vi jämför med piratkopieringens start för cirka 25 år sen.

Och det faktum att man i princip skulle kunna släppa både träningsdata och modellen som open source, för andra att bygga vidare på, borde göra branschen lätt kallsvettig.

Sonauto gör några tappra försök att skriva sig fria från ansvar. När man gör en låt måste man kryssa för:

”I confirm that I own or have permission to use all copyrighted material in this track and its title (DO NOT falsely attribute songs to other artists or use similar names!)”

Problemet är att man som användare så klart inte har någon aning om vilket ”copyrighted material” som har använts för output. I sina användarvillkor skriver man bland annat:

”You grant to us an unrestricted, unlimited, irrevocable, perpetual, non-exclusive, transferable, royalty-free, fully-paid, worldwide license to use Your Output to provide, maintain, develop, and improve the Services, to comply with applicable law, and/or to enforce our terms and policies. You are solely responsible for Outputs and Your use thereof, including ensuring that Outputs and Your use thereof do not violate any applicable law or these terms of service. We make no warranties or representations regarding the Outputs, including as to their copyrightability or legality.”

Med andra ord: ”Vi kan göra vad vi vill med musiken du genererar, men du är själv fullständigt ansvarig för allt som genereras”.

Och just precis här finns något som är skälet till att jag ser det här som en möjlig gamechanger, och att vi nu kanske går in i en ny fas för AI-genererad musik.

När piratkopieringen slog igenom på fullt allvar kring millennieskiftet, lades i stort sett allt fokus på de plattformar som möjliggjorde den illegala fildelningen. Här i Sverige skulle det dröja rätt många år innan lagstiftning fanns på plats som faktiskt lagförde användarnas egna beteende och aktioner, och det skulle egentligen dröja ända till IPRED och 2009 innan man kunde göra något av den nya lagstiftningen.

På samma sätt ligger idag mest fokus på att hantera plattformarnas användning av musiken, men det finns ingen tydlig och klar lagstiftning som reglerar vad användarna faktiskt får, och inte får göra.

Är det ett intrång i upphovsrätten att använda prompterna ovan?

Det vill säga, är det ett intrång i upphovsrätten att en användare skriver en prompt som instruerar en AI-modell att göra något sånt här? Om inte, är det inte just precis dit vi måste komma?

Kanske är Sonauto den första plattformen som lägger grunden för det riktigt stora skiftet, som jag är övertygad om inte har hänt än. När vem som helst, i princip, kan sätta upp ett nytt ”Napster” för AI-musik, med relativt små resurser och agentisk kodning, då har vi inte några få såna här tjänster. Då har vi potentiellt hundratals.

Och då ser jag bara två sätt att hantera det:

1) Implementera en lagstiftning som gör att det jag gjorde när jag promptade ovan prompter är ett intrång i både upphovsrätten och artistens rätt till sin egen röst. Resultaten är deepfakes, hävdar jag, och ansvaret för att inte skapa deepfakes måste i hög grad ligga hos användarna.

2) Branschen måste skapa alternativ som motsvarar AI-pirateriets funktionalitet, men som är ännu bättre, licensierade, och som gör att folk hellre betalar för dessa tjänster än fultjänsterna. Alltså, som jag har skrivit många gånger tidigare här på MI, den här sortens musikgenerering måste bli en del av legala nya produkter, eller en del av befintliga, som till exempel på streamingtjänster.

Den senare delen är på gång, men den första är såvitt jag vet fortfarande ohanterad. Idag finns ingen tydlig lagstiftning som styr vad en användare faktiskt får göra med en AI-modell, för musik, bild, film, text eller något annat, plattformarnas användarvillkor är det som främst styr. Samt eventuella begränsningar som AI-bolagen bygger in i plattformarna.

Det är just därför jag tror det här kan vara början på en ny fas för generativ AI och musik. På samma sätt som det till slut blev olagligt att göra den ytterst enkla handlingen att ladda ned en låt från The Pirate Bay, tror jag det behövs reglering över vad människor gör med AI-modellerna.

Samtidigt som de legala alternativen måste motsvara det folk faktiskt vill ha.

Vi får se vart det tar vägen, men räkna med att snacket om Sonauto kommer intensifieras här under våren. Något annat vore konstigt.

Daniel Johansson
daniel@musikindustrin.se