Deze website maakt gebruik van cookies. Voor meer informatie over de cookies waarvan deze website gebruik maakt klik hier.
Door verder op deze website te surfen geeft u de toestemming aan Minoc Data Services om cookies te gebruiken. verder gaan Created with Sketch.
LEES DIT:  Deep learning en het brein van de toekomst: download het gratis e-book

Google traint AI om stemmen te onderscheiden

Als mens heb je het snel door wanneer meer dan één persoon tegen je aan het praten is, een computer pikt dat niet zo snel op. Google tackelde het probleem met succes door audio en video te combineren.

 

Google is erin geslaagd om een neuraal netwerk te ontwikkelen dat een specifieke stem kan isoleren bij video’s waar de audio uit één track bestaat. De technologie zou in de toekomst gebruikt kunnen worden om onder andere hoorapparaten te verbeteren en de kwaliteit van videogesprekken op te krikken.

Audio en video

Mensen zijn van nature uitgerust met de vaardigheid om zich te concentreren op één spreker, ook wanneer er nog andere geluiden in de achtergrond spelen. Computers bezitten dat talent niet, zij moeten daarvoor geprogrammeerd worden. Dat is echter gemakkelijker gezegd dan gedaan, want er komen zoveel factoren bij kijken dat het erg moeilijk is om de vaardigheid via traditioneel programmeren om te zetten in computertaal.

 

Artificiële intelligentie biedt een antwoord: door via machine learning software te trainen op het ontwaren van een stem, kan een computer wel een bepaalde stem uitpikken tussen alle andere geluiden, ook als er meerdere mensen aan het praten zijn. Om dat mogelijk te maken combineerde Google auditieve data met visuele data: het leerde zijn algoritme om klanken te verbinden met het bewegen van een mond en andere visuele signalen die aangeven dat iemand aan het spreken is.

2.000 uur aan sprekers

Concreet schotelde Google het algoritme 2.000 uur aan videoclips voor met één duidelijk zichtbare spreker, waar het bedrijf artificieel achtergrondgeluid aan toevoegde. Op basis van die data leert het netwerk om auditieve en visuele signalen te onderscheiden, en kan het door de combinatie van beide een bepaalde stem uit een audiotrack halen. Google testte de AI onder andere met succes uit op een videoclip waarin twee comedians tegelijkertijd spreken.

Lees meer over : ai | audio | google