Veröffentlicht am 25.05.2024
Künstliche Intelligenz (KI) verbreitet sich in verschiedenen Bereichen, und einer davon ist die Sprachklontechnologie, die zunehmend mit Werkzeugen für ihren Einsatz ausgestattet ist und ihrerseits eine Reihe von Bedenken bei Nutzern und Fachleuten hinsichtlich möglicher Missbrauchsfälle hervorruft, wie die jüngste Kontroverse mit der Schauspielerin Scarlett Johansson, die nach Antworten sucht, ob OpenAI ihre Stimme ohne Zustimmung verwendet hat, um die Stimme von Sky im 'ChatGPT'-Chatbot zu erstellen.
Das Klonen von Stimmen mit Hilfe von KI-Tools besteht darin, durch den Einsatz von Algorithmen und maschinellem Lernen synthetische Kopien der Stimme einer beliebigen Person zu erstellen. In einigen Fällen ermöglichen diese Tools die Replikation der Sprache einer Person mit Audiodaten von nur wenigen Sekunden und erzielen realistische Ergebnisse.
Im Gegensatz zu synthetischen Stimmen, die mit Text-to-Speech-Technologien erzeugt werden, verwendet das Stimmenklonen die reale Stimme einer Person und generiert daraus eine realistische Interpretation des Originals.
In diesem Zusammenhang gibt es verschiedene KI-gestützte Tools, die das Klonen von Stimmen erleichtern. Ein Beispiel für diese Technologie ist VALL-E von Microsoft, das mit nur wenigen dreisekündigen Audioaufnahmen in der Lage ist, die Stimme des Sprechers zu imitieren und sogar die Emotionen und die akustische Umgebung der Nachricht zu bewahren.
Dasselbe gilt für das kürzlich angekündigte Tool von OpenAI, Voice Engine, ein neues KI-Modell, das in der Lage ist, personalisierte und natürliche Stimmen mit nur einer 15-sekündigen Audioaufnahme zu erstellen.
Diese Tools bieten somit mehrere Vorteile und Erleichterungen bei der Verwendung der Stimme in verschiedenen Kontexten, sei es zur Erstellung personalisierter Sprachassistenten, zur Unterstützung von Menschen mit Sprachproblemen, zur Entwicklung von Videospielen oder sogar für Arbeitsumgebungen, mit Anwendungen im Marketing oder bei der Übersetzung von Inhalten.
Allerdings werfen die Technologien zum Stimmenklonen auch einige Bedenken bei Nutzern und Sprachprofis auf, die angesichts der Möglichkeit eines Missbrauchs der KI potenzielle Probleme wie die Usurpation der Stimme und damit der Identität voraussehen.
MÖGLICHE VERWENDUNG DER STIMME OHNE ZUSTIMMUNG
Diese Bedenken materialisieren sich in Fällen wie dem der Schauspielerin Scarlett Johansson, die derzeit nach rechtlichen Antworten sucht, da OpenAI in ihrem 'ChatGPT'-Chatbot eine Stimme verwendet hat, die ihrer sehr ähnlich ist. Insbesondere handelt es sich um die als Sky bekannte Stimme, die infolge dieser Situation vorübergehend deaktiviert wurde.
Das von Sam Altman geleitete Unternehmen hatte der Schauspielerin ursprünglich vorgeschlagen, ChatGPT ihre Stimme zu leihen, aber Johansson lehnte das Angebot aus "persönlichen Gründen" ab, und stattdessen entschied sich OpenAI, mit professionellen Synchronsprechern, Talentagenturen, Casting-Direktoren und Branchenberatern zusammenzuarbeiten.
Tatsächlich hat das Unternehmen erklärt, dass die Stimme von Sky keine Imitation der Amerikanerin sei, sondern "einer anderen professionellen Schauspielerin gehört, die ihre eigene natürliche Stimme verwendet" und sogar vor dem Angebot an die Schauspielerin engagiert wurde.
Johansson behauptet jedoch, dass OpenAI ihre Stimme unabhängig davon imitiert hat, dass sie das Angebot abgelehnt hat, und sucht daher nach rechtlichen Mitteln, um die Situation zu klären. "Als ich die veröffentlichte Demo hörte, war ich verblüfft, wütend und ungläubig, dass Herr Altman eine Stimme verwendete, die meiner so unheimlich ähnlich klang", sagte sie in einer Erklärung.
Dieser Fall spiegelt eine der möglichen Konsequenzen der Nutzung dieser Klontechnologien wider, die zu verwirrenden Situationen führen, in denen es schwierig ist, die Identität der Nutzer im Internet zu bestätigen und zu schützen, in diesem Fall durch die Verwendung der Stimme.
SPRECHPROFIS IN ALARM
Das Aufkommen dieser KI-Tools, die in der Lage sind, Stimmen zu klonen, versetzt auch die Fachleute der Sprachbranche in Alarmbereitschaft, da sie von den Fähigkeiten dieser Technologie betroffen sind, die in einigen Fällen ihre Arbeit ersetzen kann, beispielsweise bei der Durchführung von Interpretationen.
Diese Sorge wurde bereits von Gruppen wie der Gewerkschaft der Synchronsprecher und Voice Talents von Madrid hervorgehoben, die gefordert haben, dass jede mündliche Kommunikation mit einer KI "entsprechend als solche gekennzeichnet wird". Auf diese Weise soll sichergestellt werden, dass kein Nutzer irregeführt wird und glaubt, er höre einem Menschen zu, während er in Wirklichkeit einer KI zuhört.
Darüber hinaus warnte die Gewerkschaft vor den Folgen, die diese Art von Technologie und ihre unkontrollierte Nutzung für den Berufsstand haben könnten. Aus diesem Grund haben sie im vergangenen Jahr die Notwendigkeit einer Gesetzgebung zum Ausdruck gebracht, die Fragen wie die Verpflichtung der Entwickler von KI-Klonwerkzeugen einschließt, "eine Entzerrung oder einen Soundeffekt" einzufügen, der den Inhalt allein durch das Anhören erkennbar macht.
Als Zwischenlösung zwischen der Nutzung von KI und der Arbeit von Sprachprofis sind Initiativen wie die des Unternehmens Speechless entstanden, das im vergangenen April eine hybride KI auf den Markt brachte, mit der Videospielentwickler ihre KI-gestützten Sprachwerkzeuge nutzen können, die jedoch auf einer echten Stimme basieren, die von einem Synchronsprecher angeboten wird. Auf diese Weise erhält der Profi jedes Mal eine Provision, wenn seine Sprachressourcen in einem Videospiel verwendet werden.
IDENTITÄTSBETRUG VON PROMINENTEN
Im Zusammenhang mit dem Missbrauch von Werkzeugen zum Stimmenklonen gab es auch andere Gelegenheiten, bei denen diese KI-Technologie direkt verwendet wurde, um die Identität bekannter Persönlichkeiten zu fälschen, insbesondere um böswillige Aktivitäten wie die Förderung hasserfüllter Verhaltensweisen durchzuführen.
Ein solcher Fall ereignete sich im vergangenen Jahr mit dem Technologie-Startup ElevenLab, das den Missbrauch der Sprachklontechnologie über ihre Technologie anprangerte, nachdem eine Reihe von Audioclips aufgetaucht war, die offenbar von Prominenten wie Joe Rogan, Ben Shapiro und Emma Watson gesprochen wurden und rassistische und gewalttätige Inhalte enthielten.
Dies wurde durch eine Untersuchung von Motherboard bestätigt, die detailliert darlegte, dass die Audios ursprünglich auf der Plattform 4Chan veröffentlicht wurden. Nach diesem Vorfall erklärte ElevenLab, dass sie eine Reihe von Maßnahmen zur Eindämmung dieses Missbrauchs einführen würden, wie die Anforderung eines Textbeispiels zur Überprüfung der Urheberrechte der Stimme.
BETRUG UND 'DEEPFAKES'
Diese Stimmensuchaktionen werden jedoch immer häufiger, insbesondere in sozialen Netzwerken wie Facebook und Instagram, die zu einem der bevorzugten Verbreitungskanäle für die Urheber dieser Betrügereien geworden sind, da Millionen von Menschen sie täglich nutzen und jede böswillige Kampagne eine große Reichweite haben kann.
Laut einer Umfrage der Unternehmen, die die Softwarelösungen Voicebot und Pindrop entwickeln, ist dies etwas, das mehr als 57 Prozent der Nutzer beunruhigt, die angeben, dass sie sich durch ihre Exposition gegenüber diesem wachsenden Trend unwohl fühlen.
Angesichts der Tatsache, dass die Nutzer in einer Zeit, in der sie ständig mit 'Deepfakes', falschen Informationen und Stimmenklonen konfrontiert sind, bestimmte Merkmale berücksichtigen müssen, wenn sie Inhalte konsumieren, wie die Konsistenz der Stimme, die im Fall von geklonten Stimmen ungewöhnliche Töne aufweisen oder inkonsistente Muster aufweisen kann.
Ebenso ist es neben der Bewertung der Quellen ratsam, den Kontext des Inhalts zu überprüfen und misstrauisch gegenüber Beiträgen zu sein, die unglaubwürdige Inhalte teilen, wie hohe Geldprämien.
KOMMENTARE
Im Moment keine Kundenkommentare.