Hjem Software Stemmegenkendelsesteknologi: hjælpsom eller smertefuld?

Stemmegenkendelsesteknologi: hjælpsom eller smertefuld?

Indholdsfortegnelse:

Anonim

Har du nogensinde ringet til et firma for at få hjælp eller betale din regning, kun for at blive mødt af en behagelig indspillet stemme, der vil have en samtale med dig - men ikke kan forstå halvdelen af ​​det, du siger? Eller måske ejer du en iPhone, og selvom Siri først virket som en god allieret, er du klar over, at nogle gange (OK, lad os være ærlige ofte) bare ikke har det? Stemmegenkendelsesteknologi (VRT), også kendt som tale-til-tekst, falder i en fælles fælde: Den har potentialet til at være utroligt cool (og dreng, har vi rod til det), men oftere er det en tandslibning træning i frustration.


Når en idé, der hørte hjemme i science fiction, er stemmegenkendelse vokset fra sin spædbarn i 1950'erne, da Bell Laboratories Audrey-system blev designet til at genkende cifre, der blev talt i en enkelt stemme, til det moderne netværk af konversationselektronik, vi nu interagerer med på daglig basis - med blandede resultater.

Tryk på 0 for at tale med et menneske

Mange af nutidens virksomheder bruger nu systemer kaldet interaktiv stemmesvar (IVR) til at håndtere kundeservicekald. Den mest almindelige anvendelse er til stemmegenavigerede menuer, men nogle virksomheder bruger IVR-systemer, der kan få adgang til kundekontooplysninger og besvare mindre spørgsmål. Menu IVR-software har normalt et begrænset ordforråd, som kan være begrænset til "ja, " "nej" og tal. Mere komplicerede systemer kan genkende firmaspecifikke ord og sætninger.


Disse systemer bliver mere populære - i det mindste for virksomheder - af en simpel grund: de er omkostningseffektive. I henhold til en rapport fra Wall Street Journal fra 2010 koster et typisk kundeopkald, der når en agent, mellem $ 3 og $ 9, mens et opkald, der håndteres gennem et automatiseret system, kun koster fem til syv cent. Og selvfølgelig bliver computerprogrammer ikke trætte, kalder syge ind eller bliver frustrerede over kunderne (selvom kunder bestemt bliver frustrerede over dem!).


Heldigvis betyder det ikke altid, at IVR tager job væk fra mennesker - eller i det mindste at alle mennesker forsvinder fra callcentre. Disse stemmeaktiverede hjælpere giver menneskelige kundeservicemedarbejdere mulighed for at være mere produktive ved at dirigere opkald og besvare enkle spørgsmål.


Naturligvis for de menneskelige brugere, der interagerer med disse teknologier, er det ikke altid glat sejlads. Teknologi hjælper med at forbedre almindelige problemer inden for IVR-teknologi, såsom problemer med accenter, men det er stadig et almindeligt tema online at sække automatiserede systemer. Se denne komedie-skit om en elevator udstyret med stemmegenkendelse, der fremhæver den frustration, som funktionsfejl i IVR-systemer kan give.

Personlige telefonapps: Siri, Google Now

De fleste mennesker er fortrolige med stemmegenkendelse til smartphones. Mens størstedelen af ​​de nyeste telefonmodeller leveres med VR, kvældede deres popularitet - og berygtethed - da Apple introducerede Siri, den mildt sarkastiske, stemmeaktiverede "personlige assistent" til iPhone 4S i 2011. Google oprettede snart en direkte konkurrent: Google Nu til Android Jelly Bean OS. Begge systemer har kvindelige stemmer og sofistikerede genkendelsesfunktioner, der lader brugerne "tale" til deres telefoner ved hjælp af afslappet sprog.


Men selvom disse systemer er betydeligt mere sofistikerede og funktionelle end deres forgængere, viser de også, at teknologien stadig har en lang vej at gå. Vittigheder om Siris fiasko er blevet et populært internetmeme. En mand sagsøgte endda Apple for falsk reklame vedrørende Siris muligheder.


Måske er det derfor, mens Apple skabte Siri for at være avanceret og informativ, VR-softwaren er også lidt på den sassy side. Hvis du for eksempel taler en af ​​de mest berygtede linjer i efterretningsteknologi i biografhistorien fra filmen "2001: A Space Odyssey" - "åbn poddørene" - vil Siri svare med enten svarlinjen fra filmen, " Jeg er ked af (dit navn), jeg er bange for, at jeg ikke kan gøre det, "eller det mere sarkastiske, " vi efterretningsagenter vil tilsyneladende aldrig leve det ned. "


At ringe til dig ved navn er bare en af ​​de funktioner, der prøver at gøre Siri lettere at elske og lidt mere menneskelig. VR-assistenten kan følge stemmekommandoer for at foretage opkald, tage diktering og sende tekster, udføre internetsøgninger efter information, finde butikker i nærheden, give kørselsvejledning og mere, alt uden at skulle berøre noget. Svarene taltes samtidig af telefonen og vises på skærmen.


Google Now, VR-delen af ​​Android Jelly Bean-platformen, ligner meget Siri. Systemet tilbyder de samme omfattende genkendelsesfunktioner ved at oversætte casual tale til kommandoer, der lader brugerne foretage opkald, sende tekster, køre søgninger, udføre beregninger og konverteringer, få fat i definitioner af ord, indstille alarmer, spille sange og få kort og retninger.


Hos personlige stemmeassistenter som Siri og Google Now er fordelene tydelige. Alt fra opkald og sms til søgning og underholdning er hurtigere og lettere. Bare sig hvad du vil, og (for det meste) griber VR-appen det for dig. VR's hands-off teknologi er især nyttig, når du kører. Og selvom mange mennesker har forkyndt Siris mangler, og forfattere har hævdet, at Google Now's evne til i det væsentlige at køre brugernes liv begge er uhyggelige lidt fornærmende, synes de fleste stadig, at disse futuristiske teknologier er temmelig sej.


Naturligvis er personlige telefonapps som Siri og Google Now langt fra perfekte - selvom de viser, hvor denne teknologi kan være på vej i fremtiden. Det betyder, at selv når Siri viser et forkert svar, vil vi sandsynligvis grine og tilgive hende, vel vidende at den næste version vil være meget bedre.

Hvor VR falder fladt

Hvis du nogensinde har fundet en IVR, når du har ringet til en virksomhed, har du måske bemærket visse barrierer for kommunikation. Nogle programmer bruger en robot tekst-til-tale-stemme, der udtaler ordet forkert og gør det vanskeligt at forstå. Andre har følsomhedsproblemer, der resulterer i, at softwaren ikke er i stand til at behandle det, du siger, hvis du er for høj, for blød eller ikke mislykker omhyggeligt.


Derudover er det stadig mange mennesker, der bare ikke føler sig godt tilpas med at tale med en maskine. Hvis du kører et par søgninger på IVR, vil du støde på lister, som folk har sammensat af måder at omgå IVR-systemer og komme til en "rigtig person". Disse løsninger spænder fra "hold tryk på 0 for en operatør" til "sværger ved maskinen, indtil den henter et menneske." Som et resultat har meget af den nylige udvikling i IVR-systemer drejet sig om at gøre dem mere velsmagende for mennesker; gør stemmerne mere sympatiske og mindre robuste, gør systemet lettere at navigere og lade opkaldere vide, hvor lang tid det hele vil tage fra start til slut. Det antyder, at den bedre teknologi kun er halvdelen af ​​slaget her; den anden halvdel får brugere om bord med at tale med en maskine.

Hvad fremtiden holder

På trods af disse udfordringer forbedrer stemmegenkendelsesteknologien hele tiden. Programmer som Siri og Google Now - mangler og alt sammen - er stadig ekstraordinært imponerende i deres ydeevne, og flere virksomheder udvider VR-kapaciteten til andre applikationer.


For eksempel har Nuance, skaberne af Dragon NaturallySpeaking tale-til-tekst-software, allerede udviklet stemmekontroller til fjernsyn og biler, og versioner af denne teknologi er integreret i nogle Samsung-tv'er og SYNC-underholdningssystemer, der bruges i visse Ford-køretøjer.


Og når Google og Apple fortsat finder nye anvendelser til deres stemmegenkendelsesteknologier, er det sandsynligt, at vi i stigende grad vil tale med alle slags hverdagsmaskiner, fra vores fjernsyn til vores brødristere. Og endnu en gang ser det ud til, at science fiction var rigtigt. Vi bliver bare nødt til at håbe, at de kloge forfattere tog fejl af en ting. Hvis disse maskiner overtager, kan du være i en hel del problemer næste gang du beder Siri om at "åbne døren til pod-bugten."

Stemmegenkendelsesteknologi: hjælpsom eller smertefuld?