Next Level-Audiosynthese erzeugt Stimmen von Bill Gates, Jane Goodall und George Takei

Facebook Research haben einen neuen Ansatz zur künstlichen Erzeugung von Audio gefunden, die realistische Stimmen und Musik erzeugt, die von Beispielen aus der Echtwelt praktisch kaum mehr zu unterscheiden sind. Vor allem die synthetische Intonation und Rhythmus der Stimme sind äußerst beeindruckend, vor allem bei den Single Speaker-Modellen der MelNet-AI.

Hier jede Menge Audio-Beispiele, hier ein Demo mit verschiedenen Sprechern. Die Forscher haben ihr Neural Network unter anderem auf TED-Talks von Bill Gates trainiert, hier Algo-Bill über Portwein: „Port is a strong wine with a smoky taste“:

Paper: MelNet: A Generative Model for Audio in the Frequency Domain
MIT Tech Review: Facebook’s AI system can speak with Bill Gates’s voice

Facebook AI Research, who have found a way to overcome the limitations of text-to speech systems to produce remarkably lifelike audio clips generated entirely by machine. Their machine, called MelNet, not only reproduces human intonation but can do it in the same voice as real people. So the team trained it to speak like Bill Gates, among others. The work opens the possibility of more realistic interaction between humans and computers, but it also raises the specter of a new era of fake audio content. […]

they use spectrograms to train their deep-learning network. Spectrograms record the entire spectrum of audio frequencies and how they change over time. So while waveforms capture the change over time of one parameter, amplitude, spectrograms capture the change over a huge range of different frequencies.

This means the audio information is packed more densely into this type of data representation. “The temporal axis of a spectrogram is orders of magnitude more compact than that of a waveform, meaning dependencies that span tens of thousands of timesteps in waveforms only span hundreds of timesteps in spectrograms,” say Vasquez and Lewis.

Jetzt Nerdcore unterstützen!

Nerdcore veröffentlicht seit mehr als 12 Jahren Analysen und Dokumentationen zu Memetik, Netz-Soziologie und digitalen Subkulturen, garniert mit jeder Menge Kunst, Entertainment und Unfug. Nerdcore prägte die deutsche Netzkultur maßgeblich, initiierte die erste deutsche Meme, ging Frau Merkel mit Flashmobs auf die Nerven und manche Menschen behaupten, ich würde ab und zu gute Arbeit abliefern.

Die Website ist seit 2017 werbefrei und wird aus Spenden und Abonnements finanziert. Um den Betrieb der Seite und meine Vollzeitstelle zu sichern, könnt ihr gerne ein Abonnement auf Patreon oder Steady abschließen oder mir eine einmalige Spende oder einen Dauerauftrag per Paypal oder auf mein Konto (IBAN DE05100100100921631121) zukommen lassen.

Vielen Dank an alle Leser und Unterstützer dieses Blogs.

Neu auf Nerdcore:

Nerdcore auf Twitter

Lego-Letterprints von Stellavie

Siggraph 2019: Frisch gebackenes Brot, Algo-Würfelköpfe, realistische CGI-Pasta und Style Transfer für Rauch

Musikvideos_Dan Deacon Algiers Panda Bear Neon Indian Wiki Japan Man Vegyn Vogue Dots Moses Sumney Oh Baby

Musikvideos_The Breeders Metronomy Thom Yorke Tennis Glass Beach BIB Big Bite Dogleg Ratboys Haunted Horses Drakulas Exotic Adrian Street and the Pile Drivers …And You Will Know Us By The Trail Of Dead

The SpongeBob Movietrailer

Kontakt

Newsletter

Bücherstapel
Böses Denken (Bettina Stangneth)

Fireman (Joe Hill)

Eine Naturgeschichte der menschlichen Moral (Michael Tomasello)

Spielball der Hexen (1976), Vampir Horror-Roman Taschenbuch 41

Synchron: vom rätselhaften Rhythmus der Natus (Steven Strogatz)