Gratulerer er i orden. Du, ja du kjære leser, har vært en del av noe utrolig. Takket være det harde arbeidet har millioner av bøker som inneholder stort sett summen av menneskelig kunnskap, blitt digitalisert, og reddet teksten deres for fremtidige generasjoner. Alt på grunn av deg.

Nei seriøst.

Du vet hvordan noen ganger blir du bedt om å få en “captcha” når du fyller ut et skjema på internett for å bevise at du er helt menneskelig? Bak kulissene til et av de mest populære Captcha-systemene - Googles Recaptcha - dine humanoide klikk har hjulpet finne ut hva som tradisjonell databehandling bare ikke klarer seg, og i prosessen har du hjulpet til å trene Googles AI for å bli enda smartere.

Og du trodde du bare loggte inn på en eller annen nettside.

Origins

Recaptcha (eller “reCATCHA” hvis du foretrekker) startet som et samarbeid mellom en rekke datavitenskapere på Carnegie Mellon University i Pittsburgh, først utgitt i 2007 - og det ble raskt snaffled opp av Google i 2009. Forutsetningen var som beskrevet ovenfor: ved å gifte seg med brukere som må bevise at de er menneskelige for data som trenger transkribering, begge sider får noe ut av det.

Så i stedet for å digitalisere bøker ved å ha en person utføre den veldig kjedelige oppgaven med å skrive eller sjekke en hel bok manuelt, kan millioner av mennesker ubevisst samarbeide for å oppnå det samme målet. Husk hvordan det pleide å være to ord du måtte skrive inn? Tenkelig var bare en den “ekte” test, og den andre var et nytt ord som ennå ikke ble transkribert - men som brukeren du ikke ville vite hvilken var hvilken, så må du forsøke å gjøre begge nøyaktig.

Google Bøker-appen på Android.

Recaptcha kan selv sjekke sitt eget arbeid. Ved å vise de samme ordene til flere brukere, kan det automatisk bekrefte at et ord har blitt transkribert riktig ved å sammenligne flere forsøk fra flere brukere over hele verden.

Utrolig, takket være Recaptcha-bokser som vises på tusenvis av store nettsteder og mottar titalls millioner av fullføringer om dagen, var Recaptcha ferdig med å digitalisere hele Google Books-arkivet i 2011 - samt 13 millioner artikler fra New York Times-back-catalogen som går tilbake til 1851.

Så hva gjorde Google neste, uten bøker igjen for å digitalisere? I det som kanskje var en lykkelig tilfeldighet, sammenfalt dette med veksten av kunstig intelligens og maskinlæring.

Treningsmontasje

I 2012 begynte Google å inkludere ikke bare ord, men utdrag av bilder fra Google Street View - slik at brukerne transkriberer dørnumre og annen skilting. Og i 2014 ble systemet alt om å trene AI.

I hovedsak fungerer maskininnlæringen at du gir maskinen en mengde data som allerede er sortert - si en masse bilder av katter du har merket som katter, og deretter bruker den denne informasjonen til å bygge et neuralt nettverk som gjør det mulig det å plukke kattene ut av andre bilder. Jo flere bilder på katter du mater, jo mer nøyaktig blir AI ved å plukke ut katter fra andre bilder.

En katt. Bare hvis du ikke var sikker.

Google har utallige grunner til å ønske å trene AI for å gjenkjenne objekter i bilder: bedre Google Image Search-resultater, mer nøyaktige Google Maps-resultater og slik at du kan søke i Google Photos-biblioteket for alle bildene du har tatt med et bestemt objekt eller sted . Oh, og det lille ved å sørge for at din sjåførløse bil ikke rammer noe. Du vet når Recaptcha ber deg om å identifisere gateskilt? I hovedsak spiller du en svært liten rolle i å styre en sjåførfri bil et sted, på et tidspunkt i fremtiden.

Så det er enormt praktisk da Google har til disposisjon hundrevis av millioner av Internett-brukere til å jobbe for det: ved å bruke Recaptcha for å takle disse problemene, kan Google bruke vårt behov for å bevise at vi er menneskelige for å tvinge oss til å bruke vårt svært menneskelige intuisjoner for å bygge sin database.

Googles Waymo driverløse bilsystem.

Derfor, i stedet for å bare kaste opp litt tekst, gir Recaptcha brukerne flere bilderelaterte oppgaver: “Klikk på alle bildene av katter”, “Klikk på alle boksene på rutenettet som legger over et bilde som inneholder en katt”, og så videre. For tusenvis av forskjellige objekter.

Dette er en spesielt nyttig ressurs for Google, da den konkurrerer med andre internettgiganter for å vokse maskininnlæringsdatasettene og algoritmerne: Jo flere data det kan analysere, desto bedre resultater vil være - gi dagens og fremtidige produkter en konkurransefortrinn.

Bruke AI til å slå AI

Amusingly, det er bare ett problem med å bruke captchaer til å trene maskinlæringsalgoritmer. Hva er det å stoppe for eksempel folk som vil komme seg rundt captchaer fra å bruke maskinlæring mot captchaer?

I fjor bygde utvikler Francis Kim et bevis på begrepet betyr å slå Recaptcha ved hjelp av Googles maskininnlæringsevne mot det. På bare 40 linjer med Javascript, kunne han bygge et system som bruker den rivaliserende Clarifai bildegjenkjennings-API for å se på bildene Googles Recaptcha kaster opp, og identifisere objekter captchaen krever. Så hvis Recaptcha krever at brukeren velger bilder av butikkfronter for å bevise deres menneskehet, kan Clarifai plukke dem ut i stedet.

Tenkelig også, denne typen ting vil også være mulig ved hjelp av Googles egen teknologi. Fordi Google ønsker å selge sin smarte teknologi til andre selskaper, åpner den TensorFlow opp til utviklere via en API selv. Dette betyr at du kan tenke å bruke TensorFlow til å lure Captcha som trener TensorFlow. Dette ville ikke fungere 100% av tiden - men når en AI er tilstrekkelig godt trent, burde den kunne gjøre trikset i et stort antall tilfeller.

Det som er klart fra Recaptcha, er ikke bare at det er en genial idé, men også at takket være vårt harde arbeid blir det stadig vanskeligere å skille oss mennesker fra maskinene.

  • Techradar sin AI Uke er brakt til deg i forbindelse med Ære.