Diggs hovedforsker snakker samarbeidsfiltrering
NyheterBak kulissene på mange nettsteder, samarbeider filtre på preferanser av personer som ligner på deg, for å hjelpe til med å anbefale andre produkter, historier eller linker som du kan nyte.
Du har sett disse filtrene i aksjon i Amazonas "Kunder som kjøpte denne varen kjøpte også" -funksjonen, i Diggs anbefalinger i kommende, og mange andre steder.
På South By South West Interactive kom et panel bestående av representanter fra Digg, The Filter, Baynote, Netflix og Last.fm sammen for å snakke om viktigheten av disse anbefalingsmotorene.
Anton Kast, ledende forsker ved Digg, forklarte hvordan disse filtrene startet med e-post og Usenet-filtrering basert på folks karakterer, før de flyttet ut av forskningsområdet og på hverdagen.
"Ideen om samarbeidende filtrering er ganske enkelt å kombinere innspill fra mange forskjellige personer for å filtrere informasjon bedre enn det ellers ville være mulig. Spesielt bruker du informasjon fra mange selvstendige dommer av mange, for å gjøre noe du ikke kunne ha gjort bare med datavitenskap og metadata og fakta som ikke kom fra virkelige mennesker. "
Kast fortsetter: "Denne teknikken er overalt. Det kan høres uklart, det kan høres spesialisert, men det er faktisk så enkelt at det er nesten universelt."
Vanlige eksempler inkluderer Gmail-spamfiltre, PageRank, merking av YouTube-videoer, stemme opp og ned av kommentarer på forum og hjelpesystemer..
Så det er samarbeidende filtrering, men hva er anbefaling?
"Enhver samarbeidsfiltrering der produksjonen er tilpasset," sier Kast, peker på anbefalinger på Amazon, musikk på Last.fm og filmer på Netflis som eksempler.
Og selvfølgelig vises samarbeidende filtrering på Digg. "På Digg kan alle sende inn en historie," sier Kast. "Og noen kan stemme på noen historie - det er filtreringsdelen, og det som er mest populære vinner. Det er et gigantisk samarbeidsfilter i den enkleste klassiske forstanden. Men hvis du logger inn, vil vi se på din stemmehistorie, korrelere med andre folks stemmehistorier, og finne historier som disse andre menneskene likte og vise deg de, slik at du får personlig samarbeidende filtrering. "
Men det er fire grunnleggende problemer med denne tilnærmingen, sier Kast.
Den første er sparsity: "Folk som gjør filtreringen, er sparsomme sammenlignet med mengden innhold som trenger filtrering," forklarer Kast. "Hvis det er mange flere Digg-historier enn det stemmer folk der inne, så får vi selvfølgelig ikke en god dekning.
"For det andre er det tidlige raterproblemet, der noe bare er sendt inn, og du har ikke mye avstemningsinformasjon for filtreringsformål."
Tredje er hva Kast refererer til som "det gråfeproblemet" - hvor det som er mest populært, går på hjemmesiden "og så ting som ikke er spesielt populære, men at en liten gruppe mennesker er gal om - hvordan tjener du det liten gruppe mennesker? "
Og til slutt, sier Kast, er det brukeropposisjon. "Digg har denne fascinerende historien hvor hver gang en gang et stort antall mennesker blir utrolig entusiastiske om en ting og det ender opp på vår hjemmeside og kjemper mål vi må representere små grupper eller ha mangfoldig innhold, men det er bare et grunnleggende problem - Når du stole på folk, er det populært vilje. "