Johansson: Svensk musik i AI-modeller

Daniel Johansson har använt sig av en ny databas för att undersöka hur mycket av den svenska musikhistorien som AI-modeller tränats på. Svaret är, det mesta.

The Atlantic publicerade nyligen en databas där man sammanställt information kring vilken musik AI-tjänster tränat sina modeller på.

Bakom de gedigna arbetet står reportern Alex Reisner, som utifrån de forskningspapper som publicerats kunnat sammanställa en databas över vilken musik som tjänster för generativ AI har använt sig av, åtminstone initialt.

Det handlar främst om två olika dataset som varit vanliga att använda sig av bland AI-tjänsterna. Sammantaget ligger över 22 miljoner låtar i de här dataseten.

Datasetet LAION-DISCO-12M (tidigare 10M) kommer från en tysk forskningsorganisation. LAION står för Large-scale Artificial Intelligence Open Network, med syftet att demokratisera tillgången för storskalig AI-forskning. Datasetet innehåller över 12,3 miljoner låtar och släpptes i första versionen (då med över 15 miljoner låtar) sommaren 2023.

Viktigt att notera är att datasetet ”endast” innehåller djuplänkar till alla låtar, med en massa metadata, och inte själva ljudfilerna. LAION avråder från att rippa, samt använda datasetet för kommersiella ändamål, något som uppenbarligen inte följts. Samtidigt, i papperet som publicerades i samband med att man tillgängliggjorde första versionen av datasetet, skriver man: ”Audio not directly available, can be downloaded from YouTube.” Kommentar överflödig.

Datasetet Sleeping DISCO innehåller 9,7 miljoner låtar, tillsammans med lyrics man tankat ner från Genius, och släpptes i februari 2024. Datasetet sammanställdes av forskare i forskningskollektivet Sleeping AI, och ville addera mer struktur och information till musiken. Hela datasetet har numera plockats ned, men finns tillgänglig på andra platser än originalsajten.

Förutom dessa två finns också ett ”mindre” dataset på 114 000 låtar som rippades från Spotify av en ej namngiven person, och som publicerade det på Hugging Face. Datasetet har blivit nedladdat mer än 70 000 gånger. Detta är alltså ett äldre dataset än det som Anna’s Archive rippat.

Till det finns också ett fjärde dataset med över 8 miljoner videos från YouTube.

Jag har gjort en del sökningar bland olika genrer och årtionden, och kan konstatera att stora delar av den svenska musikhistorien verkar finnas med. Här nedan en liten lista med bekräftade träffar, som bland annat Google, Stability AI, och andra använt sig av när de tränat sina modeller.

Nedan lista är endast baserad på träffar från datasetet LAION-DISCO-12M, och varje träff betyder alltså en låt (i några fall finns det dubletter). Listan är också ett urval, och kan självklart göras mycket längre.

ABBA (154 träffar)
Ace of Base (189 träffar)
Alice Babs (158 träffar)
Anders Hillborg (4 träffar)
Avicii (181 träffar)
Benjamin Ingrosso (132 träffar)
Bladee (234 träffar)
Cajsa Stina Åkerström (15 träffar)
Cornelis Vreeswijk (138 träffar)
Dr. Alban (139 träffar)
E-Type (121 träffar)
Eldkvarn (146 träffar)
Ernst Rolf (1 träff)
Esbjörn Svensson Trio (149 träffar)
Eva Dahlgren (153 träffar)
Evert Taube (127 träffar)
First Aid Kit (134 träffar)
Gyllene Tider (152 träffar)
Gösta ”Snoddas” Nordgren (58 träffar)
Harry Brandelius (5 träffar)
Icona Pop (132 träffar)
Imperiet (102 träffar)
In Flames (151 träffar)
Jussi Björling (278 träffar)
Hov1 (86 träffar)
Håkan Hellström (150 träffar)
Laleh (133 träffar)
Lars Winnerbäck (141 träffar)
Lasse Dahlquist (6 träffar)
Lasse Holm (35 träffar)
Lykke Li (106 träffar)
Magnus Uggla (145 träffar)
Mando Diao (150 träffar)
Meshuggah (136 träffar)
Monica Zetterlund (42 träffar)
Nationalteatern (148 träffar)
Nordman (99 träffar)
Peps Persson (32 träffar)
Povel Ramel (49 träffar)
Pugh Rogefeldt (21 träffar)
Refused (123 träffar)
Robyn (122 träffar)
Roxette (150 träffar)
Seinabo Sey (93 träffar)
Smith & Thell (3 träffar)
Sven-Ingvars (144 träffar)
Swedish House Mafia (93 träffar)
Tages (55 träffar)
The Cardigans (126 träffar)
The Hep Stars (21 träffar)
The Hives (114 träffar)
The Latin Kings (28 träffar)
The Wannadies (101 träffar)
Tomas Ledin (149 träffar)
Totta Näslund (109 träffar)
Tove Lo (166 träffar)
Ulf Lundell (151 träffar)
Veronica Maggio (107 träffar)
Victor Leksell (35 träffar)
Vikingarna (139 träffar)
Yasin (119 träffar)
Yngwie Malmsteen (142 träffar)
Zara Larsson (164 träffar)

Som sagt, jag sammanställde bara träffarna från ett av dataseten, och ovan lista är ett urval.

Även om det inte kommer som någon överraskning för alla som följt det här området de senaste åren, är det en tydlig bekräftelse. Publiceringen av de här dataseten sammanfaller också rätt väl med releasen av de två ”stora” tjänsterna, Suno och Udio.

Suno släppte sin första version hösten 2023, men det var med den tredje versionen av modellen, som släpptes i mars 2024, som kvaliteten avsevärt förbättrades, och därmed också mängden användare. Udio släpptes i april 2024. Huruvida just Suno eller Udio använt sig av dessa dataset är inte offentligt avslöjat, men man kan ändå resa en misstanke om att man använt dem för att skrapa framför allt YouTube.

Det australiska upphovsrättssällskapet APRA AMCOS har använt sig av den här databasen från The Atlantic, och släppte i fredags sin analys, betitlad PROOF OF THEFT: Investigation uncovers songs stolen for AI.

När de första ”moderna” modellerna för generativ AI utvecklades för 2-3 år sedan, var det i hög grad en del av den då rådande forskningen kring AI och musik. De forskare som använde sig av de här dataseten publicerade därmed också papers om hur de gått tillväga, inklusive vilka dataset man använt.

Det här är kanske en av anledningarna till att man så intensivt fortsatt hävda att det handlar om ”fair use”, det har ju varit en del av forskningsprojekt från början. Idag handlar det dock inte längre om forskning, det handlar om ren produktutveckling, och därmed hävdar rättighetshavarna självklart att fair use (eller undantaget för text- och datautvinning som det heter på svenska), inte gäller.

Som forskare har jag varit med i två stora europeiska forskningsprojekt, P2P-Next under åren 2007–2011 och FuturePulse 2017–2021, med tiotals forskare från olika länder. I båda de här projekten diskuterade vi mycket ingående kring hur man skulle samla in data, och i båda projekten togs beslutet att storskaligt rippande inte bara bryter mot tjänsternas användarvillkor och upphovsrätten, utan även mot ren forskningsetik och moral. Tydligen kan den moraliska kompassen peka åt olika håll.

Hur som helst är releasen av den här databasen ytterligare ett intressant bidrag, och de AI-tjänster (eller snarare forskare knutna till tjänsterna) som bekräftat att de använt sig av de här dataseten kan liksom inte riktigt ”komma undan”, här finns svart på vitt vilken musik man i så fall har använt sig av.

För den som vill kontrollera sin egen katalog finns databasen här: https://www.theatlantic.com/category/ai-watchdog/

(Notera att de svenska bokstäverna å, ä, ö, kan vara lite bökiga ibland, och att det ibland är bättre att söka utan dem)

Daniel Johansson
daniel@musikindustrin.se