Störtloppets algoritmer

Foto: Pontus Lundahl / TT /

Lingvisten George Zipf formulerade en lag om ord­frekvenser. Den visade sig gälla allt från galaxen till val av lösgodis, skriver Lars Melin.

Minst en gång om året brukar organisationen Oxfam, eller någon annan, redovisa att en ynka procent av alla människor på jorden äger hälften av all egendom och att de 99 andra procenten får kivas om den andra halvan. Upprörande orättvist! tycker de flesta. Grov felräkning, tycker andra. Men vi har hört det förr. För snart hundra år sedan använde Per Albin Hansson liknande data, till exempel i det berömda Folkhemstalet: ”9 procent av inkomst­tagarna ägde (år 1921) 90 procent av förmögenheten”. Lika orättvist då! Varför äger inte alla ungefär lika mycket? Är det slumpens fel eller finns det onda ­krafter som verkar i det fördolda? Eller är det något som en fingerfärdig politiker kan fixa till? Eller var det felräkning då också?

Om vi går från något så kontroversiellt som förmögenhetsfördelning till något så oförargligt som fördelningen mellan språkets ord kan vi se en annan lika konstig fördelning. Ungefär vid samma tid som Per Albin Hanson talade i riksdagen redovisade en amerikansk språkvetare att det engels­ka the är det vanligaste ordet (cirka 7 procent av löporden i en text), of näst vanligast med 3,6 procent och and trea med 2,8 procent. Detta är Zipfs lag, en helt logisk men fullkomligt oförklarlig fördelning (7, 3,6, 2,8 …) – en störtloppsbacke med avtagande frekvens. Förenklat säger lagen att ettan ska vara dubbelt så stor som tvåan och tre gånger så stor som trean och så vidare. En exakt Zipffördelning skulle alltså vara 7, 3,5, 2,3 … Exakt blir det aldrig, inte heller med exponenter eller konstanter. Men alldeles oavsett algoritmer – en störtloppsbacke.

Riktigt lika snygg fördelning är det inte bland svenska ord, men störtloppsbacke är det. Och orättvist är det. De vanligaste orden (och, att, men …) är så supervanliga att tio-i-topp-orden utgör nästan en fjärdedel av löporden i vilken text som helst medan de flesta ord bara förekommer någon enstaka gång. Och detta gäller alla språk man undersökt.

”För fem år sedan var förmögenheterna i både världen och Sverige snyggt Zipffördelade med Ingvar Kamprad som etta på svensk-toppen. ”

Mannen som upptäckte ordens intressanta frekvensmönster var George Kingsley Zipf, en amerikansk lingvist med böjelse för matematiska samband. Men det märkliga är att samma fördelning råder på många håll och därför kan kasta visst ljus över Oxfams och Per Albin Hanssons data.

Städers invånarantal är oftast Zipffördelade. Stockholm har ungefär en miljon invånare, Göteborg dryg en halv miljon och Malmö cirka 350 000. Klockrent! Men sedan blir det rörigare. Det blir det alltid, men en störtloppsbacke är det, och de flesta samhällen är pyttesmå. Dessutom gäller fördelningen nästan alla stora städer i alla länder.

Det gäller också bilmärken. Det rullar drygt en miljon Volvo på våra vägar, dubbelt så många som VW och tre gånger så många som Toyota. Sedan följer Ford och Saab i hygglig Zipffördelning – och utförsbacke.

Det gäller också nyhetssajter. Ab.se har ungefär dubbelt så stor räckvidd som Expressen.se, som i sin tur når dubbelt så många som Svd.se. Och så vidare. Ofta stämmer det också på andra sajter där Google alltid är överlägset störst men pallplatserna växlar. Och sedan följer störtloppet.

Lite generöst räknat bygger till och med vår galax på en Zipfliknande fördelning. Spektrografmätningar har visat hur grundämnena fördelas (massa per miljon) i Vintergatan. Väte är dubbelt så ­vanligt som helium. Sedan blir det ett märkligt långt hopp till syre som är dubbelt så vanligt som kol som i sin tur är dubbelt så vanligt som neon. Sedan faller kurvan brant i en störtloppsbacke ner till de grundämnen som egentligen inte finns alls. Störtloppet är värre än Zipf, men den har Zipfkonturer. Den orättfärdiga störtloppsfördelningen når alltså långt ut i världsrymden.

Ett kuriosum är att Zipf också fördelar sexuella kontakter inom ett samhälle, jordbävningars styrka och ofta fritidssysselsättningar.

Du, käre läsare, är välkommen att grans­ka din egen telefon: vilka appar du oftast använder, vilka telefonnummer du oftast ringer et cetera. Allt talar för många störtloppsbackar.

Zipf formulerade alltså en lag som beskrev ordfrekvenser, och på köpet fick han mängder av andra data, och det visar sig att lagen fortfarande gäller efter snart hundra år, och gäller för förbluffande mycket, allt från galaxen till val av lösgodis.

Något senare kom en annan teori med i stort sett samma prediktioner: paretoprincipen (efter den italienske ekonomen Vilfredo Pareto). Teorin är mer känd som 20 – 80-regeln.

För cirka fem år sedan fanns den på löpsedlarna. Finansmannen Björn Wahlros hade sagt att det finansiella systemet behövdes därför att 20 procent genier måste förvalta pengarna åt 80 procent idio­ter. Inte artigt sagt mot Nordeas kunder, men det var helt i linje med Pareto som, precis som Zipf, kunde presentera många överraskande samband:

1. På många arbetsplatser är det 20 procent av personalen som gör 80 procent av jobbet.

2. Av alla åtgärder du/företaget/organisationen/regeringen vidtar är det normalt 20 procent som svarar för 80 procent av resultatet.

3. Av alla elever i en klass, patienter på ett sjukhus, fångar i ett fängelse et cetera brukar det vara 20 procent som kräver 80 procent av personalens tid och arbete.

4. 20 procent av kunderna står för 80 procent av krångel och klagomål.

5. 20 procent av kunderna (men inte nödvändigtvis samma kunder) står för 80 procent av intäkterna.

6. Av den totala reklambudgeten är det 20 procent som svarar för 80 procent av försäljningsökningen.

7. Av alla kriminella är det 20 procent som begår 80 procent av brotten.

Allt detta stämmer långtifrån alltid, men märkligt ofta. Medan Zipf är matematiskt precis och definieras med exponenter, och därför aldrig stämmer fullt ut i verklighetens stökiga data, är Pareto lagom tillbaka­lutad och ger hyggliga förutsägelser om det mesta, bland annat förmögenhetsfördelning. För det var där Pareto började. Han fann det anmärkningsvärt att förmögenheter fördelade sig så lika i olika länder vid olika tidpunkter, oavsett om man räknade tunnland eller aktier. Och ännu mer anmärkningsvärt att samma enkla 20:80-regel förklarade så mycket annat.

Populärt

Hederskulturens medlöpare

Första skottet gick in i pannan, det andra i käken. Hon slapp höra hur fadern upprepade ordet ”hora” när han sköt. Obduktionen visade att den första kulan avslutade Fadime Sahindals 26-åriga liv.

Är nu Zifp- och Paretofördelning detsamma? Nja, för mig och Per Albin Hanson är det nog så, men för teoretikerna är Zipf en modell att förutsäga till exempel hur stor befolkning den tredje, sjätte eller hundrade staden har om man känner värdet för ettan. Pareto har inga sådana ambitioner utan vill bara visa på (sned)fördelningen lite grovt. Båda skiljer sig från en traditionell exponentiell minskning eller ökning som avser att ge ett exakt värde på en sifferserie. En regressionsanalys, ­slut­ligen, tar hand om bångstyriga data och ger en hint om huvudtrenden. Men sådant är bara för räknenissarna.

För oss är det likheterna som är slåen­de, likheterna mellan teorierna, likheterna över tid, över kulturer, över områden (privat/offentligt, viktigt/oviktigt, naturfenomen/kulturyttringar).

Och för att återknyta till det vi började med. Varken Oxfam eller Per Albin Hansson verkar/verkade bry sig om Zipf och Pareto. Men inför överväldigande datamängder från olika håll blir vi andra övertygade om att de – alla fyra – i huvudsak säger samma sak på olika sätt. Det är alltså likheterna som dominerar.

Att ta ett grepp över hela världens komplicerade nätverk av tillgångar och skulder är minst sagt komplicerat, både teoretiskt och praktiskt. Men vi kan tydligt se toppen, supermiljardärerna. Och vi kan studera dem historiskt över många ­turbulenta år, och notera att förmögenhetsfördelningen oftast är Zipffördelad men ibland mer Paretofördelade, men aldrig någonsin utan störtloppsbacke.

För fem år sedan var förmögenheterna både i världen och i Sverige snyggt Zipffördelade med Ingvar Kamprad som etta på svensktoppen. Efter några turbulenta år då Ingvar Kamprad blivit dödsbo och AAA-aktierna (Amazon, Alphabet/­Google och Apple) skakat om i världen är kurvan planare. Men likheterna är förbluffande om man jämför de rikaste tio i världen (Jeff Bezos i topp) och i Sverige (med Stefan Persson i topp).

Det blåser på toppen, men jag sätter min spåmannaheder i pant på att både Sveriges förmögenheter och världens är Zipffördelade igen om cirka fem år. Och det viktigaste: lämnar vi toppen och ser på normalmiljardärer, vanliga enkla miljonärer och oss andra fattiglappar, ja, då är det oftast Zipf som gäller. Så varken Oxfam eller Per Albin Hansson har räknat fel. Å andra sidan har de inte heller berört tiotusenkronorsfrågan: Varför?

Nej, det har ingen gjort. Man kan kanske förklara hur urbaniseringen Zipffördelat städer, och det finns antaganden om varför ordfrekvenser avtar under ordnade former, men ingen förklaring är lika bred som Zipffördelningen själv. Ingen täcker allt från galaxens grundämnen till sexuella kontakter. Å andra sidan ingen har heller kunnat förklara varför nästan alla mänskliga egenskaper är normalfördelade. Det är också orättvist. 

Lars Melin

Docent i nordiska språk vid Stockholms universitet.

Mer från Lars Melin

Läs vidare