JOHANSSON: Det är dags för en ny tröskel

I förra veckan genomfördes Get Loud på Nalen. Daniel Johansson satt med i en streamingpanel, där en till synes enkel teknikalitet diskuterades, och som Johansson hävdar att vi måste ändra på om vi vill ha en mer rättvis streamingekonomi.

Get Loud på Nalen i Stockholm arrangerades av SAMI i onsdags. Dagen var fylld med olika paneler och presentationer, och jag satt med i en panel betitlad: Streaming Platforms and Responsibility.

Med i panelen var också Bryan Johnson från Spotify, Naomi Pohl från Musicians Union i Storbritannien, och Nick Yule från AEPO-ARTIS som moderator. Intelligenta personer, bra snack, vi hann med rätt mycket, men när man sitter i en sån här panel är det lite svårt att utveckla sina tankar längre och djupare.

Jag tänkte därför ta tillfället i akt att elaborera kring en specifik sak vi diskuterade, hur 30-sekunderströskeln på streamingplattformar skapar oönskade sidoeffekter, och varför det är dags att uppdatera modellen.

Det kan tyckas vara en liten teknisk detalj, men den får stor betydelse för hur royaltypotterna fördelas. Jag tycker inte den har fått tillräckligt mycket uppmärksamhet, framför allt inte i debatten kring rättvis fördelning från streaming.

Den främsta oönskade sidoeffekten är att att genrer med spår som vanligtvis är längre än genomsnittet på DSP-erna, som klassisk musik, jazz, elektronisk experimentell musik, progressiv rock/metal, konstmusik, och andra genrer, missgynnas.

Medan genrer som innehåller spår som vanligtvis är kortare än genomsnittet, pop, hip-hop, latin, afrobeats, EDM, epadunk (för att prata Sverige), har en fördel.

Det är helt enkelt möjligt att spela upp kortare stycken många fler gånger under samma tidsperiod, men eftersom tidsgränsen för vad som räknas som en ersättningsgrundande ström är densamma för alla spår, missgynnas musik som är längre än genomsnittet.

Först, lite bakgrund.

Alla streamingplattformar använder sig alltså av en tröskel där ett spår måste strömmas över 30 sekunder för att få en ekonomisk tick.

Det räcker oftast med en millisekund över 30 sekunder, så länge det är över 30 sekunder blir den specifika uppspelningen en del av uträkningen av fördelningen för den månadens royaltypott, om spåret uppfyller alla andra villkor hos den specifika DSP-n.

Historiskt var det här också gränsen som användes under download-eran, att man kunde lyssna gratis 30 sekunder på en låt, som en provlyssning. Ville man lyssna på hela låten fick man betala styckvis och ladda ned.

När streamingen introducerades i slutet av 00-talet behövde man en tidsgräns som skulle vara praktiskt användbar. Att inkludera varje uppspelning oavsett längd skulle ha genererat massiva datamängder, och hade inneburit att även uppspelningar som startats av misstag, eller som bara var ytterst tillfälliga, hade ingått i royaltyutbetalningarna.

För att undvika att korta provlyssningar och oavsiktliga klick räknades, diskuterade man olika varianter från början: 15 sekunder, 20 sekunder, 40 sekunder, och 30 sekunder blev en slags kompromiss mellan precision och databelastning.

Om en användare lyssnar på en låt under en längre tid än 30 sekunder gjordes bedömningen att det var ”meningen” att användaren faktiskt ville lyssna på låten, jämfört med om man bara sätter igång en låt och stänger av den.

Som IFPI skriver i sin Digital Music Report från 2011, syftet med tröskeln var för att ”distinguish deliberate consumption from sampling or browsing.”

Utifrån ett rättviseperspektiv finns det dock inget som helst forskningsstöd för att 30 sekunder är den bästa tröskeln.

Det finns inga studier som visar att 30 sekunder skulle skapa en mer rättvis streamingekonomi än 29 sekunder, eller 31 sekunder, eller för den delen 27,6 sekunder.

Det här är en godtycklig tröskel som sattes för 17-18 år sedan för att underlätta för DSP-erna, samtidigt som gränsen bedömdes indikera intention från lyssnaren. Det här blev sedan den standard som gjöts i betong av DDEX, och som idag närmast är ett axiom i streamingekonomin.

Sedan dess har det dock genomförts en hel del forskning kring användares lyssningsbeteenden på streamingtjänster. Med resultat som gör att man kan ifrågasätta om det här verkligen är den mest rättvisa metoden.

Den mest intressanta forskningen kommer från forskare som är eller har varit knutna till Spotify.

Montecchio, Roy & Pachet (2019) analyserade vid vilken tidpunkt användare vanligtvis skippade en låt. Artikeln The Skipping Behavior of Users of Music Streaming Services and its Relation to Musical Structure hade egentligen inte målet att diskutera 30-sekunderströskeln, utan ville visa hur skippning kan relateras till låtens strukturella händelser (t ex förändringar i melodi, refräng osv).

Den här forskningen är så klart intressant för alla som skapar musik som man vill ska fungera på streamingplattformar, det finns tydliga bevis för vilken slags händelser i låten som gör att folk skippar, men utifrån det perspektiv jag har här är det mer intressant att analysera data utifrån ett strikt tidsperspektiv.

Här två diagram från ovanstående paper, som visar hur det kan se ut för: 1) En individuell låt, och 2) Aggregerade procentsatser för alla låtar som undersöktes på Spotify.

Notera att ligga lågt i skip rate alltså är något positivt, det innebär att färre skips görs.

Vi ser en kraftigt fallande kurva alldeles i början, och en rätt kraftig ökning i slutet. Att skip rate ökar i slutet beror naturligtvis på att det ofta kan finnas fadeouts, och att slutet av låtar ibland inte är särskilt superintressanta.

Men, data visar att skips relaterade till misstag, ”browsing”, eller ”sampling”, sker långt tidigare än 30 sekunder. Den branta fasen, 5-15 sekunder, fångar det allra mesta av oavsiktliga starter eller provlyssningar.

Det här känner ni säkert igen, ni väntar oftast inte till 30 sekunder innan ni hoppar över en låt som ni startat av misstag, eller bara vill kolla om det är rätt låt, eller bara göra en snabb provlyssning etc.

Det intressanta är att en annan forskare knuten till Spotify, Jonathan Donier, följde upp den här studien 2020, och visade att det här skip-beteendet är stabilt över tid, genre, marknad och enhet.

I artikeln The universality of skipping behaviours on music streaming platforms visar hans analys av Spotifys data att det finns generella psykologiska eller estetiska “trigger points” i låtar.

Han skriver: ”Strikingly, the responses triggered by individual events appears to follow a temporal profile that is consistent across songs, genres, devices and listening contexts, suggesting that people react to musical surprises in a universal way.”

Även här var forskningen inte fokuserad på streamingekonomin per se, och 30-sekunderströskeln, utan handlade mer om att introducera en modell för hur användare skippar låtar generellt.

Meggetto, Revie, Levine & Moshfeghi (2021) försökte dela in användares skip-beteenden i olika kategorier i artikeln On Skipping Behaviour Types in Music Streaming Sessions, och följde sedan upp med artikeln Why People Skip Music? On Predicting Music Skips using DRL (2023), där man utvecklat en modell som kan användas för att förutsäga användares skip-beteende.

En tidigare undersökning av Paul Lamere, som följde med till Spotify när man köpte upp Echo Nest, visade att 29 procent av alla uppspelningar skippas före 10 sekunder, och att skillnaden sedan inte är speciellt stor under perioden 10-30 sekunder. Vid 30 sekunder hade 35% av alla starter skippats.

Sammantaget tyder data på att det ursprungliga argumentet att 30 sekunder var en bra tröskel för att få bort ”unintended plays” inte riktigt stämmer. Tröskeln ligger tidigare, och är universell för alla genrer. Men det behövs mer forskning.

Ändå har vi byggt upp en hel streamingekonomi på en tröskel som från början var mer av en binär ”bedömning”, lite mellan tummen och pekfingret, och mer kanske en rest från download-ekonomin.

Som ni vet har den här tröskeln också lett till en annan oönskad sidoeffekt, själva musiken påverkas när man försöker skapa intron och en första halv minut som ska locka kvar lyssnarna.

Hubert Léveillé Gauvin analyserade hits mellan 1986 och 2015 i artikeln Drawing listener attention in popular music (2017), och konstaterade att själva låtstrukturen har förändrats. Huruvida det beror på 30-sekunderströskeln, eller om det är en generell utveckling som en anpassning till ett kortare ”attention span” hos publiken, är så klart svårt att säga.

Maasø & Spilker utvecklar det hela ytterligare i artikeln The Streaming Paradox: Untangling the Hybrid Gatekeeping Mechanisms of Music Streaming (2022), och även MIDiA Research har analyserat utvecklingen i sina rapporter.

Will Page, tidigare chefsekonom på Spotify bland annat, har de senaste åren vid flera tillfällen föreslagit att streamingtjänster borde införa ”completion” som ytterligare en parameter för hur royaltypotterna ska fördelas.

I artikeln A Case for Completion argumenterar han för att när en användare lyssnar klart på hela låten borde det innebära att lyssningen är värd mer, än om man bara skippar efter till exempel 31 sekunder.

Som ni kan se i tidigare diagram sker dock en ganska stor ökning av skips i slutet av låtarna, vilket gör att full ”completion” inte är optimal. Page identifierar också fler nackdelar med den här modellen, som till exempel att bakgrundsmusik i spellistor för folk som ska sova eller göra andra saker kan få en onödigt stor positiv kickback.

Men hans analyser visar ändå att man med relativt enkla medel skulle kunna introducera en modell som är mer rättvis än den nuvarande.

Det finns dock ett annat förslag, som jag är övertygad om skulle skapa en mer rättvis streamingekonomi. Om det nu är det vi vill ha.

En kombination av en mer vetenskapligt grundad binär tröskel för ”unintended plays”, där någonstans kring 10-15 sekunder nog är en bättre gräns (även om det behövs mer forskning för att få en mer exakt tröskel), och att värdet av den specifika uppspelningen sedan styrs av hur stor andel av låten användaren i övrigt strömmar, men framför allt, en användarcentrerad fördelning baserad på hur många sekunder spåret de facto strömmas av användaren.

Varianter på det här har föreslagits av några forskare tidigare, François Moreau, Frederik Juul Jensen, min kollega Ola Haampland på Universitetet i Innlandet, och även av branschorganisationer som ECSA, CISAC och PRS for Music.

I praktiken:

Den nuvarande tröskeln sänks till en vetenskapligt grundad nivå för att hantera misstag, ”browsing”, ”sampling” osv, där det alltså finns indikationer att det ligger någonstans kring 10-15 sekunder, oberoende av genre, enhet etc. Inte 30 sekunder. Men återigen, det behövs mer forskning.

Ovanför den tröskeln är värdet på den specifika uppspelningen avhängig av hur mycket av låten som de facto spelas upp, samt hur många sekunder en specifik ström faktiskt sker. En dynamisk modell alltså, där till exempel 80% lyssnande på en låt är värt mer än 50% lyssnande.

Men det räcker inte.

Vi kommer inte ifrån att även om vi får en mer empiriskt underbyggd tröskel för ”brusströmmar”, med en modell som gör det mer rättvist för längre låtar, kommer den nuvarande pro rata-modellen fortfarande leda till oönskade effekter. Streamingbedrägerierna kommer till exempel troligen öka ännu mer om man enbart sänker den monetära tröskeln.

För att det här ska fungera överhuvudtaget, måste en användarcentrerad fördelningsmodell införas, där varje användares prenumerationspeng fördelas enbart på den musik den lyssnar på. Det är än så länge den enda riktigt bra modellen för att förhindra fulaktörer att stjäla pengar ur de månatliga royaltypotterna.

En uppdaterad tröskel, som bättre hanterar det som var ursprungstanken med den, skulle i så fall vara en funktion för fördelning av royalties ”inom” ett abonnemang, inte för all konsumtion i ett land under en månad.

User-centric var också något som kom upp vid paneldiskussionen på Get Loud. Och Spotify var tydliga, om branschen vill gå över till user-centric kommer de göra det.

Eller som de skriver på Loud & Clear i år:

”We are willing to make the switch to a user-centric model if that’s what artists, songwriters, and rights holders want to do. However, Spotify cannot make this decision on its own; it requires broad industry alignment to implement this change.”

Spotify säger samtidigt att de inte tror att det skulle göra så stor skillnad, men där håller jag inte med. Man hänvisar till en av ett tjugotal studier som har gjorts, och just den studien visar inte på så stora skillnader utanför topp 10 000 artister, rent ekonomiskt. (Omfördelningen skulle dock ha störst påverkan på topp 100 artister, som skulle ”tappa” 17%, enligt den undersökningen).

Men studien visar samtidigt det som är min poäng, musik i genrer som idag missgynnas av 30-sekunderströskeln, jazz, klassiskt, metal, all musik som är längre än genomsnittet, skulle vara de genrer som vinner mest, något som flera andra studier och data från de streamingtjänster som faktiskt infört user-centric, Deezer och SoundCloud, bekräftar.

30-sekunderströskeln behöver uppdateras, liksom den nuvarande pro rata-modellen. Visst, det enklaste är att bara köra på. Varenda system som ska hantera streamingroyalties bygger på den här modellen, som snart är 20 år gammal. Och det kommer självklart kosta en del att förändra dem.

Men när en modell uppenbarligen har brister, borde vi väl åtminstone anstränga oss lite för att undersöka vad data och forskning faktiskt säger, och se över alternativen? Eller kan det vara så illa att det finns krafter inom musikbranschen, inte hos DSP-erna, som inte vill att streamingekonomin ska vara rättvis?

Jag väljer att sluta där, fokuset för den här krönikan var ju 30-sekunderströskeln, inte user-centric. Det är en minst lika lång krönika det.

Daniel Johansson
daniel@musikindustrin.se