Selv om opprinnelsen til begrepet er unnvikende, og til og med debattert, er store data et av de konseptene som mange vet om, men det tåler en enkel definisjon. I hjertet av store data, som uttrykket direkte antyder, er et ekstremt stort volum av data. Dette trekkes ofte fra ulike kilder og til og med forskjellige typer data, som deretter knuses gjennom avanserte analytiske teknikker som forhåpentligvis plukker ut mønstre som kan føre til nyttige konklusjoner.

Store data gir også de tre Vs: Volum, Variety og Velocity. Volum refererer til størrelsen på dataene, variasjonen indikerer at datasettene ikke er homogene, og hastigheten er den hastigheten som analysen foregår, ofte med målet om å oppnå sanntidsanalyse.

Datasettene som er involvert er faktisk alvorlig store - vi snakker terabytes til zettabytes (1ZB tilsvarer 909.494.701TB, for de nysgjerrige). I tillegg til størrelsen på disse datasettene, kan dataene være av forskjellige typer: strukturert, halvstrukturert og ustrukturert, pluss det kan trekkes fra flere kilder.

Dette gjør spørsmålet om hvor alle disse dataene blir generert fra. Den kommer fra alle typer steder, inkludert web, sosiale medier, nettverk, loggfiler, videofiler, sensorer og fra mobile enheter.

Sistnevnte er spesielt viktige da de fleste av oss holder telefonene våre med oss ​​og døgnet rundt, og de har en rekke sensorer, inkludert GPS, kameraer, en mikrofon og en bevegelsessensor. Videre er flertallet av smarttelefonbruk ikke talekommunikasjon, men heller andre aktiviteter, inkludert e-post, spill, nettlesing og sosiale apper - som til slutt betyr at 90% av bruken er mobile apps. En stor driver med store data er denne mobile data, som blir generert i et breakneck-tempo.

Data mining

Men data uten analyse er neppe verdt mye, og dette er den andre delen av den store dataprosessen. Denne analysen refereres til som data mining, og den forsøker å søke etter mønstre og anomalier innenfor disse store datasettene. Disse mønstrene genererer deretter informasjon som brukes til en rekke formål, for eksempel å forbedre markedsføringskampanjer, økende salgs- eller kuttekostnader. Den store data- og data mining tilnærming har ikke bare muligheten til å forvandle hele bransjer, men det har allerede gjort det.

For eksempel er Trainline en ledende europeisk uavhengig togbilsforhandler, som selger innenlandske og grenseoverskridende billetter i 173 land, med ca 127 000 reiser daglig tatt av kunder. Selskapet benyttet store data for å modernisere sin tilnærming til reiser, med fokus på å forbedre kundeopplevelsen via innovasjon gjennom sin app.

Resultatene er at kundene nå får forbedrede avbruddmeldinger gjennom appen. Mer enn bare varsler om forsinkelser, er disse forbedrede varslene spesifikke for hver reisendes reise, en første for den britiske jernbaneindustrien. Firmaet har også innovert med hensyn til prediktiv prising, som er i stand til å forutsi når forhåndspriser vil stige fra den opprinnelige rabatterte prisen, slik at passasjerer kan kjøpe priser til lavere priser.

Store data har også blitt brukt i restauranter, og spesielt hurtigmatindustrien. McDonalds er verdens største restaurantkjede med inntekt, og serverer over 69 millioner kunder daglig på over 36 900 steder i over 100 land.

På grunn av det rene volumet alene, genereres tonnevis av data, og derfor har McDonalds vedtatt en datadrevet kultur med sikte på å forbedre sin forståelse på nivået for hvert enkelt sted, med det overordnede målet om en bedre kjede av restauranter.

Gjennom store data har McDonalds optimalisert sin gjennomkjøringserfaring, for eksempel å merke seg størrelsen på bilene som kommer gjennom, og forberede seg på et økende etterspørsel når større biler blir med i køen.

En annen stor datainnovasjon har vært de digitale menyvisningene som fleksibelt kan vise menyelementer basert på en sanntidsanalyse av dataene. Menyene skifter de uthevede elementene basert på data, inkludert tidspunktet på dagen og været utenfor, spesielt for å fremme kalde drikker når det er varmt ute, og mer komfortmat på kjøligere dager. Denne tilnærmingen har økt salget på kanadiske steder med en rapportert 3% til 3,5%.

Helse saken

Denne store data-tilnærmingen har også blitt brukt på helsetjenester. Et tydelig eksempel er hovedskiftet vekk fra 'penn og papir' kartlegging hvor legens data er låst i et arkivskap på kontoret, til Electronic Health Records (EHR), som nå har all pasientinformasjon pent inn i en databas , klar til å bli utvannet.

Denne tilnærmingen lover å være forstyrrende, med en ny publikasjon i European Heart Journal lovende “potensial til å forbedre vår forståelse av sykdomsårsak og klassifisering som er relevant for tidlig oversettelse, og å bidra til brukbar analyse for å forbedre helse og helsetjenester”.

Fordelene med store data i helsevesenet vil gå utover data mining EHR. En betydelig utfordring for sykehus er bemanning, som til enhver tid skal være tilstrekkelig, med potensial til å rammes opp i toppperioder.

På en gruppe på fire parisiske sykehus som omfatter Assistance Publique-Hôpitaux de Paris (AP-HP), ser de ut til å forbedre fleksibiliteten i bemanningen. De brukte et datasett på 10 år med sykehusopptaksposter, ned til et granulært nivå av antall innleggelser på dagen, så vel som tidspunktet på dagen, og kombinert det med værdata, influensamønstre og helligdager.

Ved hjelp av maskinlæring sluttet de sine algoritmer for fremtidige trender for å forutsi antall kommende opptak for forskjellige dager og tider. Resultatet er at de nå har et brukervennlig, nettleserbasert grensesnitt for sykehusadministrasjon, samt klinisk medarbeidere som kan prognose opptakstakster de neste 15 dagene, som brukes til å skaffe ekstra stab til tider når en større Antall innmeldinger er forventet.

Med data, og spesielt mobildata som genereres med en latterlig rask hastighet, er den store datatilgangen nødvendig for å gjøre denne massive bunken av informasjon til brukbar intelligens. I eksemplene vi har sitert ovenfor, har utfordringen blitt oppfylt, og etter hvert som enda flere data blir samlet, vil det være flere muligheter for å øke kvalitet og effektivitet i en rekke ulike bransjer via raskere og bedre analyse av disse ulike spredt datasettene.

  • Vi spør også: Er store data en stor feil?