Champions League-finalen var ikke bare et spennende spill, men det var også en potensiell spilleskifter: Liverpool Striker Mo Salah, årets spiller, mottaker av Golden Boot og Egyptens mest kjente spiller hadde plutselig fått sin billett til VM i tvil etter en aggressiv utfordring fra Sergio Ramos forlot ham skadet.

Implikasjonene til denne taklen kunne ha vært store: Hvis Salah ikke kunne spille for sitt land (det viser seg at han har gjort det nesten umulige og passer), kunne dette ha påvirket Egyptens sjanser i VM, og mens Egypt Det er sannsynlig at det ikke kommer til å bekymre seg for de senere runder av konkurransen, som en sommerfugl som klapper sine vinger på den andre siden av verden, kan Egyptens opptreden i sin tur påvirke hvordan de andre lagene i sin gruppe gjør - og til slutt påvirke hvilket land som skal løfte trofé.

Dette sa, Salahs potensielle fall er bare en av bokstavelig talt millioner av datapunkter. En av millioner av faktorer som i siste instans kunne påvirke utfallet av konkurransen.

Hvordan kan vi få et håndtak på hva du kan forvente, da? Er det noen måte å forutsi hvordan lagene skal utføre? Kunne Big Data, som allerede har forvandlet utallige andre næringer, også låse opp en dypere forståelse av det vakre spillet? Kan det forutsi hvem som vinner VM?

Datapunkter

Opta Sports og STATS er to selskaper som prøver å svare på spørsmål som dette. Som idrettsdatabedrifter er deres oppdrag å samle inn data og gi mening om det for sine kunder, som inkluderer idrettslag og foreninger, samt medier som er sultne etter datainnsikt (ahem).

“Det er veldig enkelt å tro at flere data er gode, men til du vet hvordan du skal bruke den og hva du kan lære av det, noen ganger kan det være data for data skyld”

Paul Power, STATS.com

Hva samler de da da? Opta's markedsføringsjef Peter Deeley forklarte at for hver fotballkamp samles selskapet rundt 2000 individuelle datapunkter, mest fokusert på “on-ball” handlinger. Et team av tre analytikere - en for hver side, og noen som skal dobbeltsjekke vanskelige øyeblikk, vil sitte i selskapets datafelt i Leeds, og vil registrere stort sett alt som skjer på banen: hvert pass, kryss og skutt, så vel som posisjonene på feltet der hver interaksjon har skjedd.

Dataene blir levert til klientene, og det er grunnen til at for eksempel UK pundit (og tidligere engelspiller) Gary Lineker er i stand til å fortelle seerne om statistikk som besittelse og skudd på mål på halv tid.

Stats.com gjør den samme typen ting - og Paul Power, datavitenskapsmann ved firmaet, var opptatt av å fortelle meg om hvordan det ikke bare er mennesker som brukes til datainnsamling, men nye datasynteknologier.

Når det gjelder å nøyaktig oppta posisjonen til hver spiller på banen, bruker hans selskap kameraer plassert rundt kanten for å finne ut det, og sparer behovet for at spillere skal bære sporvinkler under sine skjorter, slik som det har skjedd i sport som Rugby Union.

Men hvorfor hold deg til mennesker? Kunne ikke visjonen brukes til å logge alle av denne typen data? “Folk er fortsatt best på grunn av nyanser at datamaskiner ikke kommer til å forstå,” hevder Paul.

Han gir eksemplet hva hvis en spiller er hjørnet og sparker ballen bort av desperasjon, men heldigvis blir ballen mottatt av en spiller på samme lag. Til en maskin kan dette se ut som bare et langt pass, ettersom maskiner ikke kan trene sammen med hva som skjer, eller utseendet av panikk på spillerens ansikt - det ville logge et langt pass, mens teknisk sett er hendelsen teknisk noe ellers: en klaring. Hvilket betyr at uten at et menneske skal foreta disse anropene, kan de loggede dataene være mindre nøyaktige.

Opta-tilnærmingen

Vi vet at begge selskapene har mye data - men hvem tror de faktisk vil vinne VM? Selv om begge selskapene genererer mange detaljerte data for sine kunder, vekket interessant STATS og Opta når det gjelder modellering denne sommers turnering.

I Opta saken fortalte Peter for meg at deres VM-modell ikke tar hensyn til de myriade av de enkelte spillernes data. I stedet har Opta valgt bare å se på prestasjonen til de spesifikke nasjonale lagene på lagnivå. For eksempel vurdere Egyptens sjanser basert på hvordan det egyptiske laget utførte tidligere, og uten å ta hensyn til Mo Salahs skadessituasjon.

“Datavitenskapere for VM kikket på de forskjellige landes historiske resultater, hvilken forskjell gjør det hvis du spiller som vertsnasjon, hvilken forskjell gjør det at du spiller på ditt hjemland.

Peter Deeley, Opta

“Datavitenskaperne for VM kikket på de forskjellige landes historiske resultater, hvilken forskjell gjør det hvis du spiller som vertsnasjon, hvilken forskjell gjør det at du spiller på ditt hjemland [og] hvilken forskjell gjør det det gjør hvis du har vunnet de siste verdensmesterskapene,” Peter forklarer.

Datavitenskaperne kunne da justere modellen ved å kjøre den hundretusenvis av ganger for å gjøre iterative forbedringer, justere den relative vekten av hver faktor i algoritmen.

Dette er en overraskelse, da du antar jo flere data jo bedre, men Peter mener at denne modellen fortsatt kan gi gode spådommer.

“En World Cup er bare ferdig hvert fjerde år, så du vil ofte finne at en anstendig kvalitetsspiller som spiller for et land som ofte spiller i VM, vil bare spille i to VM-turneringer - du vil ikke ha så mye data på at spillerne har innflytelse på det bredere laget, innenfor det internasjonale oppsettet.” han sier.

Og han mener at disse lagnivådataene er nok: “Italia vant i 2006 - de var ikke favoritter og kvaliteten på truppen deres, selv om de var gode, de var ikke et lag som hadde en Cristiano Ronaldo-nivå superstar.”

Han fortsetter å forklare: “Det er veldig interessant, med VM er det sant at de lagene som historisk gjør det bra, fortsetter å gjøre det bra. Tyskland, i de siste tre verdensmesterskapene har i hvert fall kommet til semifinalen.

"Selv om du kan argumentere for deres lag denne gangen, er det ikke så bra som forrige gang, har de fortsatt en oversikt over å være nåværende verdensmestere, å være et lag som generelt fungerer bra - og det er i deres hjemland. mener at de har en god sjanse generelt, ikke uavhengig av deres lag, men de har en historie om å gjøre det bra i turneringer.”

“Det er veldig enkelt å tro at flere data er gode, men til du vet hvordan du skal bruke den og hva du kan lære av det, noen ganger kan det være data for data skyld”, han sier.

STATS-modellen

STATS har modellert VM ganske annerledes. I motsetning til konkurrenten tar det hensyn til individuelle spillerdata for hva det ringer “Hva om?” Analytics.

Ifølge Paul betyr dette at STATS effektivt kan bruke individuelle spillerdata til å trene ikke bare hvordan et lag skal utføre, men også kvantifisere effekten av bytte spillere inn og ut av truppen. I Mo Salahs tilfelle, hevder STATS at systemet vil kunne utrede virkningen på Egypt om han er egnet nok til å leke eller ikke.

“Du kan plugge inn disse forskjellige situasjonene, og det ville være i stand til å generere et utfall, og det vil enten være antall mål som er scoret eller innrømmet, eller bare vinn sannsynlighet: hvordan øker eller reduserer sjansen sjansen? "Paul forklarer.

“Vi kan se på dette, kjøre simuleringene, og dette vil faktisk fortelle oss: Mo Salah kan være verdt 0,3 av et mål, eller hvis han ikke spiller og en annen spiller kommer inn, reduserer sannsynligheten med 3% eller 10% eller det kan faktisk øke det avhengig av laget som de faktisk spiller mot.”

(Bilde: © Getty Images)

Hvorfor mener STATS at den enkelte tilnærmingen fungerer bedre enn å se på lag?

“Alle vet om du mangler stjernespillerne dine, det vil påvirke ytelsen - du trenger ikke et komplekst nevralt nettverk for å fortelle deg at,” sier Paulus. “Hvis du mangler det i datasettet, vil det virkelig skje dine sannsynligheter og dine spådommer”.

“Vi vet at ved å legge til i disse ekstrafunksjonene av spillerne at vi får bedre innflytelse fordi det vi kan gjøre bedre er modellen de direkte forholdene mellom enkeltpersoner, og mens det er en lagsporter, vet vi at enkelte individer har større innflytelse på utfallet enn visse andre.

"Hvis du for eksempel savner en back-up, kan det være mindre av et problem enn å savne en sentral midtbanespiller, så du må være med på det, og som et resultat av det er vi veldig sikre på modellen som vi har generert.”

Fortell meg hvem som skal vinne, dammit

Nå kommer vi til alt viktig spørsmål: Hvilket land spår de to modellene for å vinne? I begge tilfeller, som riktige statsnerds, har de levert probabilistiske prognoser som inneholder noe mer nyans enn du er kompis Dave, som svinger blind at Tyskland skal vinne igjen fordi han har en god følelse av dem.

Jeg spurte STATS for sine spådommer, og dessverre, til tross for at selskapet var villig til å fortelle meg om alle dataene den har tilgang til, og hvordan det ville faktisk gjør en spådom, ble jeg fortalt at de ikke vil publisere sine spådommer i år. Hvorfor? Ut av frykt for å være feil? Nei, svaret er mye mer greit: dette er verdifull informasjon, og de vil bare spyle bønnene til betalende kunder.

Vi har imidlertid en prediksjon fra Opta. Det satser flerårige VM-vinnere Brasil (bare ikke nevne 2014) som de mest sannsynlige vinnerne igjen - noe som gir dem en 14,2% sjanse til å vinne. Dette betyr at hvis du løp VM med de samme lagene 20 ganger over, kan du bare forvente at Brasil vinner tre ganger. Som din kompis Dave, opptar Opta også Tyskland - noe som gir dem en 11,4% sjanse til å ta hjem troféet igjen.

Et annet selskap som liker å forutsi og har en skummel mengde nøyaktighet i resultatene er EA Sports. For de siste tre verdensmesterskapene har det med rette forutsagt den endelige VM i verdenscupen.

Ved å bruke de detaljerte dataene den har på spillere og lagrangeringer i FIFA 2018 og VM-tillegget, løp det en simulering av turneringen, og Frankrike var de endelige vinnerne, og slo Tyskland i finalen. Gitt det forutsatt Tyskland og Spania for henholdsvis 2014 og 2010 World Cups, kan dette være et godt rop.

Deretter er det Blue Yonder, et selskap berømt for å bruke AI for å forutsi ebb og flyt av lagerstyring i noen av verdens største supermarkeder. Det har nylig vendt sin hånd for å forutsi VM. Venstre feltet ja, men teknologien har analysert hver internasjonal fotballkamp spilt siden 1872, og kjører over 1 million simuleringer av VM og mener at Brasil er favorittene for å vinne Russland, med en 22,5% sjanse for å vinne.

Og hva med England? Den dårlige nyheten for Gareth Southgate er at Opta gir sin tropp en lav 1,9% sjanse, mens Blue Yonder øker dette litt til 5,7%.

Hvis Opta og Blue Yonder har rett, er det høyst sannsynlig at vi kan glede oss til å miste enda en straffespark. Sukk.

TechRadar World Cup dekning er brakt til deg i forbindelse med ære.