“Myslím, že výsledek je zasloužený.”
“Tu remízu jsme si dneska za náš výkon určitě zasloužili!”
Takhle nějak začíná a končí valná většina pozápasových rozhovorů a rozborů nad elektronickou tužkou ve studiu. Fotbal se ale nehraje na zásluhy. Své o tom ví v Karviné, která mohla být v tabulce dokonce před Spartou. “Ale holt chybělo trochu toho štěstíčka.”
Jestli měl tým v zápase štěstí nebo smůlu se v poslední době měří pomocí xG statistiky. Ve zkratce jde o vyjádření počtu branek, které měl tým vstřelit ze šancí, které si vypracoval. Toto číslo se potom porovná se skutečným počtem gólů. Pokud třeba tým zahrával v zápase penaltu, ale jinak za celých 90 minut branku soupeře neohrozil, pak očekávaný počet branek tohoto týmu bude roven podílu proměněných penalt. Víme-li, že hráč promění v průměru 3 pokutové kopy ze 4 zahrávaných, pak xG = 0.75.
Dá-li hráč z penalty branku, pak si se svojí šancí poradil o 0.25 gólu nad očekávání. Zní to trochu směšně, ale zkrátka byla reálná možnost, že penaltu nepromění a nějak se to zohlednit musí… Přepočíst ostatní příležitosti ke skórování na xG už tak přímočaře nelze. Každého napadne, že šance, že střela zapadne do branky, závisí například na vzdálenosti a úhlu, ze které se k ní hráč odhodlá. Získat taková data něco stojí, takže při snaze vypočítat, jaké štěstí nebo smůlu měly týmy v prvních 5 kolech soutěže, jsem zvolil levnější řešení. Z dat dostupných na stránkách HETligy a trochou kreativity jsem sestavil model, který přepočítá více herních ukazatelů na očekávaný počet branek.
Plzeň, aneb když ti dobří mají navíc i štěstí
U takového hokusu pokusu už podle mě nestačí tweet s výsledky, ale alespoň krátké vysvětlení postupu je nutné. Jak pro člověka, který statistiku ovládá (od takových si rád poslechnu jakoukoli zpětnou vazbu), tak pro někoho, kdo pronikl více do světa lidí než do světa čísel (těm budu dál tiše závidět a rovněž budu vděčný za jakékoli postřehy).
Aktuální tabulka s ukazatelem šťastně získaných / smolně ztracených bodů
Na oficiálních stránkách ligy lze pro každý tým získat údaj o počtu útoků, střel, střel na branku, přihrávkách a jejich úspěšnosti, odebraných míčích a vyhraných soubojích v zápase. Výpočty stojí na tom, že znalost těchto údajů dohromady dává o výkonu týmu lepší informaci než jen počet vstřelených gólů. Jejich porovnáním se vstřelenými brankami lze dostat ukazatel do jisté míry zachycující štěstí týmu v zápase při proměňování šancí.
<Statistická vsuvka>
Zmíněné ukazatele jsou mezi sebou silně závislé. Počet střel na branku nemůže být vyšší než počet střel celkem, čím častěji tým útočí, tím častěji střílí atd. K normálnímu rozdělení mají také daleko. Pomocí rkovského balíčku caret byla data předzpracována Box-Coxovou transformací, znormalizována a koncentrována do 6 hlavních komponent pomocí PCA.
Takto předzpracovaná data jsem použil v poissonovské regresi s počtem branek jako vysvětlovanou proměnnou. Při výběru modelu jsem zkusil více možností, především s odstraněnými statistikami o přihrávkách, jelikož jde o ukazatel, který je pokřivený vším, co se ději mezi stopery a gólmanem. Podle Akaikeho informačního kritéria je nicméně nejlepší plný model se všemi ukazateli upravenými tak, jak bylo popsáno v předešlém odstavci.
Pro konstrukci modelu bylo použito 1722 pozorování (861 zápasů, pro které byla dostupná data, vyjma aktuální sezóny). Výsledky regrese jsem poté aplikoval právě na zápasy nedávno rozehrané sezóny a získal tak očekávaný střední počet branek týmu v zápase. Z něj jsem za použití poissonova rozdělení vybral nejpravděpodobnější počet gólů, které tým při svém výkonu mohl skórovat.
Jak vidno, celou dobu jsem se choval tak, jako by počet branek jednoho týmu byl nezávislý na gólech týmu druhého. Krokem dopředu by mohlo být například použití dvojrozměrného poissonova rozdělení nebo započtení nějaké kompenzace, jelikož jednoduchý poisson lehce podhodnocuje remízové výsledky. Postup analýzy by se výrazněji zkomplikoval, byl by časově náročnější a nejsem přesvědčen, že by pro účel, pro který je počítán, nabídl zásadně jiné výsledky. V případě použití výstupů pro kurzové sázení už bych se dalšímu vylepšení nevyhýbal, tam se každá setina přesnosti váží zlatem. Zde to nutné myslím není.
Smolaři z Karviné
Zachránit se ve druhé sezóně po postupu do první ligy je prý složitější než v nováčkovské sezóně. Karvinští mohou už po 5 kolech vyprávět. Podle modelu měli mít 11 bodů a být o skóre 3. za Slavií. Začali sice šťastnou výhrou 2:0 nad Jihlavou v zápase ohodnoceném nejpravděpodobnějším výsledkem 1:1. Od té doby ale dali o 5 branek méně, než model předpokládal. Vyhrát měla Karviná obě venkovní utkání, i to poslední s Libercem. Holt smůla.
Na opačném pólu stojí Liberec, který svá dvě poslední utkání v Boleslavi a Karviné měl prohrát 0:1, namísto toho slavil výhry. Padá to tam i Teplicím, které odstartovali smolně v Edenu, ale od té doby dali ve 3 ze 4 utkání tři branky.
V Boleslavi je to prostě špatně
Zápas Liberce v Boleslavi už jsem zmínil. Podle modelu měla slavit Boleslav. Je to ale jediný rozpor mezi modelem a boleslavskými výsledky. Ano, branek by na svém kontě měli mít její hráči více, ale co je to platné, když máte druhou nejhorší obranu.
Zápasy, které skončily opačně, než měly
Z dosud 40 odehraných zápasů jich zatím 5 skončilo opačným výsledkem, než vychází z modelu.
Pořád jsou to jen čísla…
Jedna z definic statistiky říká, že jde o přesný součet nepřesných čísel. S tím je dobré koukat i na tento článek. Všechny zápasy jsem neviděl, včetně těch, o kterých zde píšu. U některých jsem si přečetl reportáž nebo se kouknul na sestřih. Někdy má model naprostou pravdu, občas je vedle jak ta jedle. Od letošní sezóny se snažím sbírat detailnější údaje, které v budoucnu zaručeně přinesou přesnější analýzy. Jako fanouškovi mi tento vhled do situace přijde přes všechny nedokonalosti zajímavý, proto jsem se rozhodl se o něj podělit.