Talegenkjenningsteknologi spiller en stadig viktigere rolle i våre liv, enten vi ber Amazon Amazon-ekkoen vår for å spille vår favoritt Spotify-spilleliste eller få nedslipp av nyhetene fra Google Assistant innebygd i smarttelefonene våre.

Selv om talegjenkjenningsteknologien har eksistert i noen form siden 1950-tallet, er det bare i de siste årene at den har funnet en praktisk applikasjon i form av taleassistenter innebygd i smarttelefoner, høyttalere og mer.

Den siste bølgen av talegjenkjenningsinnovasjon har kommet til grunn takket være sprangene i kunstig intelligens de siste årene, med teknologiske giganter som Google, Amazon og Apple, som utnytter deres bruk av nevrale nettverk i utviklingen av deres talassistenter.

Maskinlæring

Det som setter taleassistenter som Amazon Alexa, Apples Siri og Google Assistant, bortsett fra tidlig iterasjoner av talegjenkjenningsteknologi, er at de stadig lærer, plukker opp talemønster, ordforråd og syntaks med hver interaksjon.

De fleste stemmeassistenter har i disse dager også røkkelgjenkjenning, noe som gjør det mulig for dem å skille mellom ulike brukere - og med de mange av disse store teknologibedrifter og søkemotorer bak dem, blir telefonsamtaler bedre hele tiden.

Imidlertid, mens teknologien har blitt uendret forbedret siden den først tok sin vei på forbrukerinnretninger, har begrensninger med kunstig intelligens og maskinlæring betydd at talassistentene fortsatt er relativt urolige når det gjelder lydene de kan tolke og svare på.

Høres trolig

Dette kan delvis skyldes tyngden av talegjenkjenning over lydgjenkjenning; Tross alt kommer en stor del av den soniske informasjonen våre hjerner opp på daglig basis, fra ikke-verbale lyder, som forankring av bilhorn eller hundebarking.

Selv om opprinnelsen til språket antas å foregå moderne mennesker, potensielt til og med spenning så langt tilbake som Homo Ergaster (1,5-1,9 millioner år siden), var våre forfedre i stand til å identifisere og behandle lyd lenge før det.

Mens verbal kommunikasjon spiller en stor rolle i vår rasjonelle forståelse av verden rundt oss, er det ikke-verbalt lyd som ofte utløser en følelsesmessig, evolusjonært inngripet respons - vi vet med svært liten sammenheng at et grusende dyr advarer oss om å gå tilbake, mens et gråt baby trenger oppmerksomhet. Et høyt knall får oss til å føle oss skremt, og vi flinch, bringer hendene våre opp for å beskytte hodene våre.

Ikke bare det, men ikke-verbal lyd spiller en stor rolle i måten vi kommuniserer med hverandre; For eksempel, som svar på gråtende babyen, kan en forelder gjøre beroligende cooing-støy, akkurat som vi kanskje roper på et grusende dyr for å prøve å skremme det bort.

Så, hvis ikke-verbal lyd er så viktig for vår forståelse av verden og måten vi kommuniserer, hvorfor er stemmeaktiverte assistenter så hengt opp på språk?

Audio Analytics oppdrag

En britisk virksomhet mener det er tid for våre tilkoblede enheter å lære om kunsten å lytte til ren lyd. Audio Analytic er et Cambridge-basert lydgjenkjenningsfirma som er dedikert til å forbedre smart teknologi i hjemmet.

Ledet av administrerende direktør og grunnlegger Dr Chris Mitchell, Audio Analytics forskning på lydgjenkjenning og AI, betyr at lydassistenter som Amazon Alexa snart kunne få et viktig ekstra lag med auditiv informasjon: kontekst.

Etter å ha fullført en doktorgrad, med fokus på å lære datamaskiner å gjenkjenne musikalske sjangere, innså Mitchell at det ikke var noen selskaper som hovedsakelig jobber med lydgjenkjenning. Så begynte han med en liste over alle lydene han kunne tenke på og deres egenskaper og dermed sette opp Audio Analytic.

Selv om Audio Analytic ble født inn i bedriftssikkerhet, fortalte Mitchell oss det “Selskapet fant et marked i forbrukerelektronikken” som tilkoblede enheter ble vanligere i gjennomsnittlig husholdning.

Med så mange tilkoblede mikrofoner som kommer inn i våre hjem gjennom smarte høyttalere som Amazon Echo, Google Home og Apple HomePod, a “verden av muligheter” åpnet plutselig for selskapet - med særlig fokus på smart hjemme sikkerhet.

Hvordan gjør det mitt hjem tryggere?

Så hvordan kan lydgenkjenningsteknologi forbedre smarte sikkerhetsenheter? Vel, et eksempel er hvis en innbruddstyver forsøker å bryte inn i huset ditt, ødelegge et vindu i prosessen. Hvis din smarte høyttaler har muligheten til å tolke lyd og korrekt identifisere forsterkning, bølgelengde og lydfrekvens for glassbrudd, kan den deretter sende deg et varsel, samt sende et signal til andre tilkoblede enheter i hjemmet.

Dette fungerer spesielt godt når du har smarte sikkerhetsenheter som Hive Hub 360, som har Audio Analytics lydgjenkjenningsteknologi innebygd. Dette betyr at det kan gjenkjenne lyder så variert som hunden bjeffer på lyden av vinduene dine, og som et resultat , kan aktivere andre Hive-enheter.

Så, hvis et vindu bryter i ditt hjem, kan du automatisk sette Hive Lights for å slå på og skremme av en potensiell inntrenger. Den virkelig klare tingen om denne teknologien er at den ikke gir deg beskjed om hver eneste lyd i hjemmet ditt, bare de som det anser viktig, takket være sorteringen av forskjellige lyder eller ideofiler i store lydbiblioteker av Audio Analytic.

  • Beste smarte låser: Sikre hjemmet ditt med en moderne smart lås

Hva med AI-assistenter?

Bortsett fra hjemmets sikkerhet er det andre resultatet av forbedret lydgjenkjenningsteknologi smartere, mer empatisk stemmeassistenter, som Mitchell forklarer: “Hvis jeg kunne gi en stemmeassistent en følelse av bevissthet, velvære og alle de andre tingene jeg vet, kommer fra lyd, så kan deres personligheter bli utvidet, så vel som deres lydhørhet og deres nytte.”

Tenk tilbake til den gråtende babyen, og forestill deg at du har Audio Analytics soniske bibliotek bygget inn i Amazon Echo Dot i barnets rom. Det er 1 am, og du er tucked up i senga når du får et varsel på smarttelefonen din og forteller deg at ekkotikken har oppdaget lyden av en baby som gråter.

Alexa slår deretter på lysene i gangen din, slik at du kan finne veien i mørket, mens Echo Dot spiller beroligende musikk i babyens rom. Kanskje Alexa snakker til barnet, beroliger henne at du er på vei, eller kanskje det leser henne en bedtime-historie, beroliger barnet ditt til du kommer dit og rocker henne igjen for å sove.

Enten du finner denne søte eller dystopiske til ekstremen, avhenger i stor grad av dine følelser mot AI-teknologi, men tydelig lydgjenkjenning har potensial til å gjøre taleassistenter som Alexa mer forståelige, mer menneskelige og uendelig mer intelligente.

Ser frem til fremtiden

Du kan ta den gråte barnanalogen enda lenger når du vurderer sammenhengen mellom forskjellige lyder. Selv om Audio Analytics fokus hittil har vært på individuell lyd, mener Mitchell at selskapets fremtid ligger i identifisering og kontekstualisering av flere lyder sammen.

“Tenk på babyens gråt, og hun har hostet mye og nyser mye ... du begynner plutselig å bygge opp et mye rikere bilde ... så kombinasjonene av alle disse lydeffekter og konteksten [de] maling kan gjøre det mulig for noen veldig hjelpsomme egenskaper,” han sier.

Hvis en stemmeassistent kan identifisere lyden av gråt, hoste og nysing, er det ikke et stort sprang for å foreslå at det en dag kunne knytte disse lydene sammen og utlede en mulig årsak - i dette tilfellet kan stemmeassistenten anta Barnet er uvel med forkjølelse, og kan foreslå rettsmidler, hente nummeret til legen, eller bestille deg noen hostemedisin.

Denne typen rasjonell tanke kommer naturlig til mennesker, men det er fortsatt tidlige dager for kunstig intelligente enheter; gi imidlertid AI-assistenter med de riktige verktøyene (det vil si ekspansive soniske biblioteker), og det er ingen grunn til at dette ikke kunne være en mulighet i fremtiden.

Problemet med AI

Selvfølgelig vil ideen om en stemmeassistent som utarbeider diagnoser utløse alarmklokkene for mange mennesker. Kunstig intelligens er jo ikke i nærheten av en kamp for den menneskelige hjerne når det gjelder resonnement og emosjonell intelligens.

Kunstig intelligens kan ikke konkurrere med millioner av år med evolusjon og sosial kondisjonering, og implisitt bias på nivået med data og algoritmiske modeller betyr at talassistenter plukker opp rase, kjønn og ideologiske forutsetninger, noe som gjør det vanskelig for oss å sette vår tillit til dem helt.

Likevel forbedrer lydassistentene drevet av maskinlæring hver dag, og det kan ikke være lenge før vi ser at Alexa blir litt mer menneskelig, spesielt hvis algoritmer er bedre trent til å tolke sonisk, så vel som språklige data.

Og hvis det betyr at du ikke snakker mer om leker i mørket, så teller oss inn.

  • Beste smarte høyttalere 2018: hvilken skal du kjøpe?