Next Level-Audiosynthese erzeugt Stimmen von Bill Gates, Jane Goodall und George Takei

Facebook Research haben einen neuen Ansatz zur künstlichen Erzeugung von Audio gefunden, die realistische Stimmen und Musik erzeugt, die von Beispielen aus der Echtwelt praktisch kaum mehr zu unterscheiden sind. Vor allem die synthetische Intonation und Rhythmus der Stimme sind äußerst beeindruckend, vor allem bei den Single Speaker-Modellen der MelNet-AI.

Hier jede Menge Audio-Beispiele, hier ein Demo mit verschiedenen Sprechern. Die Forscher haben ihr Neural Network unter anderem auf TED-Talks von Bill Gates trainiert, hier Algo-Bill über Portwein: „Port is a strong wine with a smoky taste“:

Paper: MelNet: A Generative Model for Audio in the Frequency Domain
MIT Tech Review: Facebook’s AI system can speak with Bill Gates’s voice

Facebook AI Research, who have found a way to overcome the limitations of text-to speech systems to produce remarkably lifelike audio clips generated entirely by machine. Their machine, called MelNet, not only reproduces human intonation but can do it in the same voice as real people. So the team trained it to speak like Bill Gates, among others. The work opens the possibility of more realistic interaction between humans and computers, but it also raises the specter of a new era of fake audio content. […]

they use spectrograms to train their deep-learning network. Spectrograms record the entire spectrum of audio frequencies and how they change over time. So while waveforms capture the change over time of one parameter, amplitude, spectrograms capture the change over a huge range of different frequencies.

This means the audio information is packed more densely into this type of data representation. “The temporal axis of a spectrogram is orders of magnitude more compact than that of a waveform, meaning dependencies that span tens of thousands of timesteps in waveforms only span hundreds of timesteps in spectrograms,” say Vasquez and Lewis.

Nerdcore veröffentlicht seit mehr als 12 Jahren Analysen und Dokumentationen zu Memetik, Netz-Soziologie und digitalen Subkulturen, garniert mit jeder Menge Kunst, Entertainment und Unfug. Nerdcore prägte die deutsche Netzkultur maßgeblich, initiierte die erste deutsche Meme, ging Frau Merkel mit Flashmobs auf die Nerven und manche Menschen behaupten, ich würde ab und zu gute Arbeit abliefern.

Die Website ist seit 2017 werbefrei und wird aus Spenden und Abonnements finanziert. Um den Betrieb der Seite und meine Vollzeitstelle zu sichern, könnt ihr gerne ein Abonnement auf Patreon oder Steady abschließen oder mir eine einmalige Spende oder einen Dauerauftrag per Paypal oder auf mein Konto (IBAN DE05100100100921631121) zukommen lassen.

Vielen Dank an alle Leser und Unterstützer dieses Blogs.

Neu auf Nerdcore:

Nerdcore auf Twitter

Trailerfest: Greener Gras, The Sound of Silence, Ad Astra, Bombshell, Villains, The Report, The Siren

Plastic Rocks

[Klimalinks 22.8.2019] Bernie Sanders’ 16 Billionen US$-Klimaplan; Pflanze blüht zum ersten mal seit 60 Millionen Jahren; Immobilien mit hohem Klimarisiko nicht versicherbar

Bolsanero will nur jeden zweiten Tag kacken (für die Umwelt)

Musikvideos: Deichkind, Shi Offline, Kim Gordon, Metz, Loud Hound, The Menzingers, Zonal, Men I Trust


NC-Shirts

Jetzt Nerdcore unterstützen!


Patreon
Steady
Paypal
Donorbox
IBAN DE05100100100921631121

Dankeschön!

Kontakt

Newsletter

Bücherstapel
Was für Lebewesen sind wir? (Noam Chomsky)

Der Tyrann: Shakespeares Machtkunde für das 21. Jahrhundert (Stephen Greenblatt)

Stan (John Connolly)

Die geheime Welt der Bauwerke (Roma Agrawal)

Verzeichnis einiger Verluste (Judith Schalansky)