Expected goals (xG): definition, historia, kritik

Expected goals, ibland förkortat xG, var ämnet i det specialavsnitt av CL-podden som jag spelade in i veckan. Det var ett av de mer dokumentära avsnitten av podden – som vi kallar CL-podden Insider – som den här gången alltså handlade om det trendigaste statistiska måttet i världsfotbollen just nu.

Jag intervjuade en dataanalytiker från Chicago som heter Michael Bertin via Skype. Han är också en fotbollsskribent som skriver om football analytics på olika statistiksajter på nätet. Bland annat har han skrivit blogginlägget ”Why Soccer’s Most Popular Advanced Stat Kind Of Sucks” på Deadspin.

Om ni vill lyssna på det här avsnittet där du får veta allt du behöver veta om expected goals kan du göra det antingen i spelaren här nedanför, eller på iTunes, i Acast-appen eller vartsomhelst där du hittar dina poddar annars.

Om du istället vill läsa mer om expected goals så hittar du det viktigaste här nedanför: definition av expected goals, expected goals historia och lite om kritiken mot expected goals:

Definition av expected goals (xG)

En definition av expected goals är att det är ett statistiskt begrepp för att beskriva hur många och hur bra målchanser ett lag eller en spelare haft i en match eller under en säsong. Till exempel för att kunna kvantifiera vilket lag i en match som har presterat bäst, en siffra som till skillnad från skott eller skott på mål speglar kvalitén på avsluten.

Expected goals: historia

Expected goals som begrepp har inte funnits jättelänge och exakt när det etablerades är inte heller självklart. Enkla varianter av det här måttet har funnits väldigt länge, till exempel har man ju vetat att ungefär var tionde skott ett lag avlossar blir mål, så antalet skott avlossade under en match dividerat med tio är en väldigt simpel form av expected goals.

”Enkla varianter av expected goals-måttet har funnits väldigt länge”

Men, även om den väldigt enkla versionen av expected goals faktiskt stämmer på ett ungefär över tid, så har den givetvis stora brister. Det mest iögonfallande är så klart vart på planen skotten tas. Skott från halva plan räknas lika mycket som en straffspark i en sådan modell, och lag som tar mycket skott från distans får alldeles för höga värden då, i förhållande till hur farliga deras chanser faktiskt har varit.

Introduktionen av skottavstånd i de här beräkningarna kan man se som födelsen av den moderna formen av expected goals. Återigen är det inte helt säkert när det här skedde. En kvalificerad gissning är att det var den 12:e april 2012 som en mer avancerad modell för att beräkna kvalitén på en målchans föddes.

I ett blogginlägg av statistikföretaget Optas Sam Green, med rubriken ”Assessing the performance of Premier League goalscorers”, går han igenom en ny modell för att bättre fånga kvalitén i en målchans med hjälp av statistik. Opta hade uppenbarligen vid det här laget börjat plocka upp statistik om exakt vart på planen ett skott avlossades. Dessutom hade man data på ifall det var en nick eller ett skott med foten, om det kom efter hörna eller under en kontring eller via straffspark och så vidare. På så sätt kunde Sam Green (bilden) skapa den tidigaste formen av ett mer avancerat expected goals-mått.

Sam Green Opta

Modellen hade tydliga brister, vilket Green var medveten om. Till exempel tar den inte hänsyn till försvararnas positioner, eller om spelaren som sköt egentligen borde vinkats av för offside, eller alla de farliga lägen som faktiskt uppstår under en match – där spelaren aldrig kommer till avslut i slutändan.

Det verkligt stora genombrottet för allmänheten fick expected goals den 12 augusti 2017 i det brittiska tv-programmet Match of the Day. Den här fotbollsshowen är en institution i England, enligt Guiness rekordbok är Match of the day det tv-program i världen som funnits längst, det första avsnittet sändes redan den 22 augusti 1964.

”Genombrottet för allmänheten fick expected goals i Match of the Day den 12 augusti 2017 ”

Varje avsnitt har ungefär sju miljoner tittare, och i programmet som sändes lördagen den 12 augusti 2017, under efter-matchen-intervjun med Antonio Conte, vars Chelsea just förlorat premiären mot Burnley, rullade statistik från matchen i nedre högre hörnet av tv-rutan. Bollinnehav visades först, sedan skott, skott på mål, hörnor, och – expected goals: 1,53 för Chelsea mot 0,64 för Burnley.

Expected goals xG debut i Match of the Day

Chelsea ”borde” alltså ha vunnit matchen eftersom man skapade flest bra målchanser, men förlorade den alltså istället med 2-3.

Kritik mot expected goals (xG)

Sedan Sam Greens första försök har de här modellerna förändrats väldigt mycket, mer och mer data går att mäta och matas in i beräkningarna. Men det är faktiskt inte säkert att de har blivit särskilt mycket bättre. Mycket går till exempel inte att mäta, som ifall en match är uppgjord av ett spelsyndikat eller om fansens ilska eller medias rapportering påverkar spelarna mentalt, bara för att ta några exempel. Datan registreras dessutom oftast manuellt och är påverkas därför av den mänskliga faktorn.

”Datan registreras oftast manuellt och påverkas av den mänskliga faktorn”

Även om man lyckas fånga de viktigaste faktorerna har det visat sig svårare än man trott att konstruera beräkningsmodeller som viktar de olika variablerna rätt och är pålitliga över tid. Ett annat problem är att olika aktörer räknar på lite olika sätt, vilket gör det svårt att jämföra de här siffrorna med varandra. Upphovsmännen vill dessutom helst inte dela med sig av sina beräkningsmodeller, eftersom det kostar mycket att ta fram en bra formel som man då helt enkelt inte vill ge bort gratis.

Ett annat besvärande mönster är att de riktigt bra lagen tenderar att slå expected goals-uppskattningarna gång på gång, vilket visar på en svaghet i beräkningsmodellerna. Dessutom förändras fotbollens karaktär över tid. Till exempel: om antalet genomskärare minskar, påverkar det modellernas träffsäkerhet eftersom genomskärare tydligt ökar chansen för en riktigt bra målchans. För att skapa ett mått som ser samband och förutspår framtiden måste man hitta signaler i statistikbruset, och när en stark signal försvinner eller minskar innebär det att man måste försöka hitta andra istället.

Sammanfattning

Trots svårigheterna att mäta expected goals på ett rättvisande sätt, har måttet vuxit sig starkt de senaste åren och är nu ett modeord i fotbollsvärlden. Särskilt stort är det bland fotbollsfans som gillar statistik, som är en egen liten community på nätet. Måttet har också fått ett erkännande i både media och i själva fotbollsklubbarna, som mäter expected goals på ett eller annat sätt.

CL-podden backas inte av något mediehus utan finansieras av poddens lyssnare på Patreon. Bli patron!
Hello. Add your message here.