Machinetaal: hoe Siri pikt uw stem?

Makradar Van Technologie / by admin / December 19, 2019

click fraud protection

Google, Apple, Microsoft, en zelfs Amazon zijn actief op het ontwikkelen van hun spraakdiensten. Vers gebakken op iOS 7 is hetzelfde Siri, alleen nieuwe functies en... stem. Vraag je je af hoe is dit proces? Als computers worden onderwezen speech? deze echte kunst.

Voor elk van de voices Siri - uw acteur. Zodra het haar rol in de articulatie is voltooid, is het werk nog maar net begonnen... De mannenstem vervolgt zijn tocht. Het verhaal van deze reis, zowel van de mens en robot - een van de meest complexe technologische processen, die kon niet tien jaar geleden worden uitgevoerd.

Laten we eens kennis te maken met de directeur van het ontwerp en de ontwikkeling van de stem Nuance, het is een van de grootste onafhankelijke bedrijven in de wereld omgaan met spraakherkenning en tekst naar spraak. Brant Ward (J. Brant Ward) gebruikt om een componist, componeren de partij voor strijkkwartetten tot synthesizers, en nu componeert hij het door het gebruik van synthetische stemmen. Hij werkt in de spraaksynthese-industrie in Silicon Valley voor meer dan een decennium.

instagram viewer

Text to Speech - een zeer concurrerende industrie, en haar medewerkers is zeer geheimzinnig. Hoewel de wereld en gelooft dat Nuance maakt de stem van Siri voor, Ward en zijn collega David Vasquez (David Vazquez) voorkomen dat er een direct antwoord. Toch zijn ze overeengekomen om uit te leggen, althans in algemene termen, hoe het proces van het creëren van een geweldige machine stemmen.

Onnodig te zeggen, niet nodig om te articuleren en te schrijven elk woord uit het woordenboek. Maar als het gaat om de toepassing, die alle nieuws in uw nieuwsbrief moet worden gelezen, of iets voor u te vinden op het internet, is het gewoon verplicht om elk woord in het woordenboek te spreken.

Het merendeel van de voorstellen worden geselecteerd op een "rijkdom fonetiek" - dat wil zeggen, ze bevatten veel verschillende combinaties van fonemen. "Het feit is, hoe meer gegevens we hebben, hoe realistischer het resultaat zal zijn," - zegt Ward.

Nadat de tekst is opgenomen live-voice actor (een moeizaam proces dat enkele maanden kan duren), begint heel hard werken. Woorden en zinnen worden geanalyseerd, ingedeeld in categorieën en opgenomen in een grote database. In dit complex werk betrokken zijn een team van toegewijde taalkundigen, evenals hun eigen taal software te gebruiken.

Als dit alles is gedaan, de eenheid van Nuance te vertalen tekst naar spraak creëert bit woorden en zinnen die de acteur kan Ik eigenlijk nooit uitgesproken, maar het klinkt erg lijken op de toespraak van de acteur, want het is technisch gezien de stem acteur.

Werkwijze spreken bewusteloos. We doen het zonder na te denken over hoe dit proces verloopt: de situatie waarin onze taal, die relaties zijn gebouwd tussen fonemen, en ga zo maar door - om gemakkelijk en effectief uit te drukken complexe ideeën en emoties. Maar opdat de computer pakte het geluid van menselijke stemmen, al deze factoren moet rekening worden gehouden. Als een professor van de taalkunde, is de taak van "Titanic".

Je moet niet denken: "Ik ben in gesprek met een computer." Je over het algemeen niet nodig om na te denken over het.

"Mijn kinderen interactie met van Siri, alsof het een levend wezen... Ze hebben niet het verschil voelen," - zegt Ward.

Tot nu toe, en om de vriendschap tussen mensen en robots - zoals de mens. Veel mensen zouden het leuk vinden als Siri de emotionele toestand van de spreker kan herkennen, en een of andere manier op reageren (bijvoorbeeld voorzien van een rustgevende stem-modus). Stel je voor - naar de robot, die u moreel is aai over de bol te praten. Misschien is Nuance al aan het nadenken over het ...

Tags cloud

Rating

Bekeken

Comments