Wissenschaft & Technik

Beeindruckendes Programm für künstliche Intelligenz, das Gesichter aus Ton nachbildet

Fotos in Bildern rekonstruiert nach Hörprobe (Foto: Screenshot / Speech2Face)
Fotos in Bildern rekonstruiert nach Hörprobe (Foto: Screenshot / Speech2Face)

Die Technologie entwickelt sich sprunghaft weiter, basierend auf verschiedenen Bereichen, um neue Möglichkeiten und Funktionen zu erkunden. Eine davon ist Macht. „Rekonstruieren“ Sie das Gesicht einer Person durch eine Stimme.

Die Studium Speech2Face 2019 auf einer Vision and Recognition Patterns-Konferenz vorgestellt, zeigte, dass Künstliche Intelligenz (KI) das kann entschlüsseln, wie eine Person durch kurze Audiosegmente aussieht.

Das Papier erklärt, dass das Ziel der Forscher von Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman und Michael Rubinstein vom MIT Science and Research Program nicht darin besteht, menschliche Gesichter identisch zu rekonstruieren, sondern ein Bild zu machen mit den physikalischen Eigenschaften, die mit dem analysierten Geräusch verbunden sind.

Um dies zu erreichen, verwendeten sie ein tiefes neuronales Netzwerk entworfen und trainiert die Millionen von Videos von YouTube analysierte, in denen sich Menschen unterhalten. Während des Trainings lernte das Model dazu Stimmen Gesichtern zuordnendamit Sie produzieren können Bilder mit ähnlichen physischen Merkmalen wie Lautsprechereinschließlich Alter, Geschlecht und Nationalität.

Übereinstimmungen des Programms mit der Stimme (Foto: Screenshot / Speech2Face)
Übereinstimmungen des Programms mit der Stimme (Foto: Screenshot / Speech2Face)

Das Training wurde unter der Aufsicht und mit seinem Einsatz durchgeführt Koexistenz von Personen und Stimmen aus Videos im Internet, ohne dass detaillierte physische Merkmale des Gesichts modelliert werden müssen.

„Unsere Rekonstruktionen, direkt aus dem Ton entnommen, zeigen die Zusammenhänge zwischen Gesichtern und Stimmen. Wir werten numerisch aus und quantifizieren, wie und auf welche Weise die Speech2Face-Rekonstruktionen aus Ton wie echte Bilder der Gesichter der Sprecher aussehen“.

Sie geben an, dass, weil diese Studie aufgrund der Nationalität und der Privatsphäre sensible Aspekte haben könnte, dem Gesichtsausdruck keine spezifischen körperlichen Aspekte hinzugefügt wurden, und versichern dies wie alle anderen System von maschinelles Lernen, dies verbessert sich im Laufe der Zeit, da es mit jeder Verwendung seine Wissensbibliothek erweitert.

Obwohl die vorgelegten Daten dies zeigen Speech2Face hat eine große Anzahl von Übereinstimmungen zwischen Gesichtern und Stimmenhatte auch einige Mängel, bei denen ethnische Zugehörigkeit, Alter oder Geschlecht nicht mit der verwendeten Stimmprobe übereinstimmten.

Beispiele für Fehler.  Das erste Foto entspricht dem Gesicht der Person im Ton und das zweite dem, was vom Programm nachgebildet wurde (Foto: Screenshot / Speech2Face)
Beispiele für Fehler. Das erste Foto entspricht dem Gesicht der Person im Ton und das zweite dem, was vom Programm nachgebildet wurde (Foto: Screenshot / Speech2Face)

Das Modell ist zur Präsentation bestimmt Statistische Korrelationen, die zwischen Gesichtszügen und Stimme bestehen. Es sei daran erinnert, dass die aus YouTube-Videos gelernte künstliche Intelligenz, die keine reale Stichprobe der Weltbevölkerung darstellt, beispielsweise in einigen Sprachen Diskrepanzen zu den Trainingsdaten aufweist.

In diesem Sinne empfiehlt die Studie selbst am Ende ihrer Ergebnisse, dass diejenigen, die sich entscheiden, das System zu erforschen und zu modernisieren, auf diese Weise eine breitere Stichprobe von Menschen und Stimmen berücksichtigen maschinelles Lernen Ich habe eine breiteres Repertoire an Gesichtsanpassung und Freizeit.

Das Programm war auch in der Lage, die Stimme in einer Animation nachzubilden, die auch eine unglaubliche Ähnlichkeit mit den Stimmen im analysierten Audio hat.

Da diese Technologie auch für böswillige Zwecke verwendet werden könnte, geben Gesichtsausdrücke nur die Nähe zur Person wieder und geben kein vollständiges Bild, da dies ein Problem für die Privatsphäre der Menschen sein könnte. Trotzdem ist es erstaunlich, was Technologie mit Audio-Samples anstellen kann.

WEITERLESEN:

Achtung: Hacker ahmen WeTransfer nach, um Daten zu stehlen

eHealth, was es ist und warum es die Zukunft der Medizin ist

Sonnenkollektoren, die ohne Sonne funktionieren. schaffen Plaques, die auch nachts Energie produzieren

WhatsApp präsentiert 6 Reaktionen mit Emojis für Nachrichten und mehr Datenschutzoptionen

About the author

m-admin

Leave a Comment