Hjem Lyd Jeg hører døde mennesker? naturlig sprogteknologi får tidligere og nuværende stemmer til at blive levende

Jeg hører døde mennesker? naturlig sprogteknologi får tidligere og nuværende stemmer til at blive levende

Indholdsfortegnelse:

Anonim

I disse dage er de fleste computerstemmer passé. Du bliver sandsynligvis ikke for forspændt om cyborgs og robotter, når du hører "droid" på din telefon, der hjælper dig med en regningbetaling eller spørger dig, hvilken afdeling du vil have. Men hvad nu hvis du pludselig hørte Kurt Cobain besejre dig for kortoplysninger? Eller John F. Kennedy, der fortæller dig om vidundere ved tidlig afstemning? Eller Elvis får dit navn og adresse ned, før han bryder ind i "en hunk, en hunk af brændende kærlighed?"


Alle disse ville være … ret rare, men hvad der er endnu mere fascinerende er, at teknologien stort set allerede er her. For bare et årtier siden blev vi forbløffet over en computers evne til endda at tale. Nu er vi ved at blive flydet af fri række, computergenererede stemmer, der lyder som mennesker, vi kender.

Store ændringer i NLP

Hvis du lægger mærke til området for naturligt sprogbehandling (NLP), har du måske hørt om nogle nylige fremskridt, der går ud over de slags konserverede virtuelle assistentstemmer, som vi nu hører i vores globale positioneringssystemer (GPS) og automatiseret virksomhed telefonlinjer.


Begyndelsen af ​​NLP krævede en hel masse forskning i den generelle mekanik for menneskelig tale. Forskere og ingeniører måtte identificere individuelle fonetikker, folde dem i større algoritmer til generering af sætninger og sætninger og derefter prøve at styre det hele på et metaniveau for at generere noget, der lød virkeligt. Med tiden mestrede NLP-ledere dette og begyndte at opbygge avancerede algoritmer for at forstå, hvad mennesker siger. Ved at sammensætte disse to kom virksomhederne op med driverne til nutidens virtuelle assistenter og fuldt digitale regningsbetalingsmedarbejdere, hvis måder - mens de er irriterende - stadig er fantastiske, når du holder op med at tænke på det arbejde, der gik i dem.


Nu går nogle virksomheder ud over den generiske virtuelle stemme for at sammensætte et mere specifikt personaliseret resultat. Dette kræver, at man gennemgår en bestemt persons leksikon og samler store mængder unik stemmevideo, hvorefter man bruger dette arkiv på de komplekse rytmer for fonetik, vægt, kadens og alle de andre små signaler, som lingvister ofte grupperer under det brede banner af ”prosody”.


Hvad der kommer ud er en stemme, som lyttere tænker på som "ejet" af en bestemt person - enten en, de kender og har talt med, eller en, hvis stemme de genkender som et resultat af personens berømmelse.


Fra Elvis til Martin Luther King kan nogens stemme nu "klones" på denne måde - forudsat at der er en betydelig forudindspillet optagelse af deres tale. Ved at anvende endnu mere detaljeret analyse og manipulation på individuelle små lyde er virksomheder i stand til at lave en virtuel kulstofkopi af nogens stemme, der lyder meget som den rigtige ting.

Spændende "Text to Voice" -skabelser på VivoText

VivoText er for eksempel et firma, der arbejder for at revolutionere brugen af ​​kunstige menneskelige stemmer til alle former for kampagner, fra lydbøger til interaktiv stemmesvar (IVR). Hos VivoText arbejder forsknings- og produktionsteam med processer, der teoretisk set specifikt kunne gentage stemmerne fra afdøde berømtheder, såsom Ol 'Blue Eyes selv.


"For at klone Frank Sinatras stemme, ville vi faktisk gennemgå hans indspillede arv, " siger VivoText CEO Gershon Silbert, der taler om, hvordan denne type teknologi kunne fungere.


Lige nu arbejder VivoText på at arkivere stemmerne fra dem, der stadig er med os, såsom NPR-korrespondent Neal Conan, der har tilmeldt sig som en model for denne type it-pionérprojekt. En salgsfremmende video viser VivoText-medarbejdere omhyggeligt oprette fonetiske kodemoduler ved hjælp af leveret taleinput fra Conan. De opretter derefter modellerne for tekst til tale (TTS) værktøjer, der fremkalder et dramatisk menneskeligt og personificeret resultat.


Ifølge Ben Feibleman, vicepræsident for strategi og forretningsudvikling hos VivoText, arbejder computeren på et fonemniveau (ved hjælp af de mindste unikke dele af talen) for at overholde en prosodisk model for en individuel menneskelig stemme.


"Det ved, hvordan stemmen taler, " siger Feibleman og tilføjer, at ved hjælp af "enhedsvalg" vælger computeren et antal stykker for at sammensætte et enkelt kort ord, ligesom hvor ordet "fredag" får fem komponenter, der hjælper med at udvikle en særlig vægt og tonalt resultat.

Kunstig stemme i marketing

Så hvordan fungerer dette i marketing? VivoText's produkter kan være yderst nyttige til at skabe produkter, som lydbøger, der kunne nå målgrupper. Hvor meget mere effektiv ville en Elvis-stemme f.eks. Sammenlignes med en af ​​nutidens generiske, deadpan, automatiske stemmer, hvis den blev brugt til at sælge underholdningsrelaterede produkter?


Eller hvad med politik? Feibleman har arbejdet med forskellige ideer til brug af projekter som disse til at forbedre markedsføringen for virksomheder eller andre parter, der har brug for mere effektiv meddelelse.


”Hvis du kender nogen politikere, der kæmper for præsident, kan dette have 10 millioner swing-state vælgere til at få et personligt opkald fra en kandidat, takke dem for deres støtte, fortælle dem, hvor de skal gå for at stemme, vejret og alle afskæringer aftenen før valget, ”sagde Feibleman.

Din stemme lever videre

Der er en anden åbenlys anvendelse til al denne teknologi. Virksomheder med naturligt sprog som VivoText kunne oprette en personlig service, der vil uploade alle kundens stemmedata til et produkt, der giver denne person mulighed for at "tale for evigt."


Praktisk implementering vil sandsynligvis rejse en række spørgsmål om, hvordan vi hører og internaliserer talte stemmer. Hvad skal det for eksempel til for at få en lydstrøm til at lyde nøjagtigt som nogen? Hvor godt skal vi kende en person til at genkende en bestemt stemme? Og interessant, hvad sker der, hvis en naturlig sprogtjeneste producerer en rå karikatur snarere end en overbevisende efterligning?


Evaluering af resultater, siger Feibleman, afhænger ofte af betragtning af kontekst. For eksempel siger han, at børn normalt ikke stiller spørgsmål om, hvem der taler, når de lytter til en historie. De vil bare have mere. Men også mange voksne tænker måske ikke på, hvem der taler til dem i betragtning af et bestemt scenarie, såsom en passiv udsendelse eller telefonbesked. Det er også lettere at narre af en computer over telefonen, fordi den dæmpede lyd kan maske fejl eller andre uoverensstemmelser mellem computerresultaterne og en menneskelig stemme.


"Det forekommer ikke dig at udfordre stemmenes ægthed, " siger Feibleman.

I året 2525

Når virksomheder går videre med at udvikle produkter og tjenester og besvare disse spørgsmål, kunne "levende tale" -teknologier føre os hen imod den konvergens af teknologi og det menneskelige sind, som klassisk er blevet kaldt kunstig intelligens (AI).


Hvis computere kan tale som os, kan de muligvis narre andre brugere til at tro, at de tænker som os, og fodre ind i det større princippet om singularitet, som indledt vores leksikon af John von Neumann, en tech-pioner fra 1950'erne, evangeliseret af forfattere og tænkere som Ray Kurzweil. Kurzweils bog fra 2005, "Singulariteten er nær", ophidser nogle og skræmmer andre. Kurzweils forudsagde, at "intelligens" som fænomen i 2045 i 2045 vil blive stærkt uudslettet fra den menneskelige hjerne og migrere ind i teknologi og udviske linjerne mellem maskiner og deres menneskelige mestre.


Udødeliggjort i teksterne til Zager & Evans '"I året 2525" (ingen gør uhyggelige sci-fi-ballader som disse fyre) …


I året 4545

Du behøver ikke dine tænder, behøver ikke

dine øjne

Du kan ikke finde en ting at tygge på

Ingen ser på dig


I året 5555

Dine arme hænger op på dine sider

Dine ben har ikke noget at gøre

Nogle maskiner gør det for dig


Er computerstemmer et skridt i denne retning? Som en ny måde at outsourcere nogle af funktionerne i den menneskelige krop (eller mere almindeligt for at simulere dem), er denne type teknologiske fremskridt en af ​​de største - og sandsynligvis underrapporterede - fremskridt i horisonten, når vi ser på en enestående fremtid . (om "singulariteten" i Vil computere være i stand til at efterligne den menneskelige sind?)

Jeg hører døde mennesker? naturlig sprogteknologi får tidligere og nuværende stemmer til at blive levende