Künstliche Intelligenz in der Synchronbranche - Hörbücher auf Knopfdruck, aber ohne Emotionen

Sa 13.07.24 | 08:13 Uhr | Von Marvin Wenzel
  12
Die Synchronsprecherin Katharina Koschny arbeitet am 26.06.24 in der Sprecherinnenkabine eines Tonstudios in Berlin an der deutschen Synchronisierung eines Films (Quelle: rbb / Wenzel).
Bild: rbb / Wenzel

KI.-gestützte Sprachgeneratoren können Stimmen erzeugen und Hörbücher vertonen, ohne dass dafür ein Mensch im Tonstudio sein muss. Aber wie gut sind sie? Ein Test mit der Berliner Synchronsprecherin Katharina Koschny. Von Marvin Wenzel

Katharina Koschny tritt vor ein Mikrofon und brüllt: "You give our number to unknown men?!" In der Aufnahmekabine übersetzt die Berliner Synchronsprecherin den Satz "Du gibst wildfremden Männern unsere Nummer?!" für die englische Synchronfassung von einem deutschen Spielfilm. Dabei ist ihr Rücken gerade, beim Sprechen runzelt sie ihre Stirn und wedelt mit der rechten Hand durch die Luft. Ihre Stimme klingt vorwurfsvoll und wütend. Sie scheint sich in die Filmszene einfühlen zu können, in der eine Mutter ihre Tochter anraunt.

Die Synchronsprecherin Katharina Koschny arbeitet am 26.06.24 in der Sprecherinnenkabine eines Tonstudios in Berlin an der deutschen Synchronisierung eines Films (Quelle: rbb / Wenzel).
"Du gibst wildfremden Männern unsere Nummer?!": Katharina Koschny in Aktion.Bild: rbb / Wenzel

Durch ein Fenster in der Aufnahmekabine kann sie die Originalfassung von der Szene auf einem Bildschirm sehen. Der Toningenieur Rudy Redl sitzt wenige Meter dahinter vor einem Mischpult und blickt auf einen Computerbildschirm. Auf dem Monitor erscheint die Tonspur. “Das war schon super, aber lass uns den Satz gerne nochmal machen”, ruft er Koschny zu und klickt auf den Aufnahmeknopf. Koschny spricht den Satz erneut - und schon ist in Teamarbeit ein kleiner Teil einer Synchronfassung entstanden.

Texte von fiktiven Stimmen und Rihanna einsprechen lassen

Noch wird der Großteil aller Synchronfassungen von Filmen und Hörbüchern von professionellen Sprecher:innen wie Koschny eingesprochen. Doch seit einigen Monaten bieten Software-Unternehmen computergenerierte Stimmen an, die ganze Hörbücher einsprechen können. Ein Mensch ist dann dafür im Studio nicht mehr nötig. Das versprechen zumindest einige K.I.-Programme wie "Vidnoz".

Die Bedienung ist einfach: Der Nutzer muss nur einen Text in ein Bedienfeld einfügen - und schon spricht die K.I. den Text. Die meisten Anwendungen sind kostenfrei. Die Nutzer:innen können die Sprechgeschwindigkeit anpassen und zwischen verschiedenen männlich und weiblich klingenden Stimmen wählen. Neben der freundlich und warm klingenden Frauenstimme kann man sich auch Texte von Prominenten wie US-Popikone Rihanna oder Bundeskanzler Olaf Scholz einsprechen lassen.

"Strukturiert linear einen Text vorlesen - aber sonst nichts"

Eine Neuerung, die das Geschäftsmodell von Katharina Koschny und ihre gesamte Branche bedrohen könnte: Viele Sprecher:innen seien derzeit besorgt, Aufträge durch die K.I.-Konkurrenz zu verlieren. Seit über drei Jahrzehnten arbeitet die ehemalige Schauspielerin in der Synchronbranche. Wenn sie nicht Hörbüchern oder Filmen ihre Stimme verleiht, gibt sie in ihrer "Akademie für Professionelles Sprechen” in Wilmersdorf Kurse und bildet Sprecher:innen aus.

"Die K.I. kann gut strukturiert einen Text linear vorlesen", sagt sie. "Aber sonst nichts." Professionelles Sprechen bedeutete aber, dass man Worte nicht nur vorliest, sondern über die Stimme Emotionen und einen szenischen Kontext hörbar macht. Die K.I.-Stimme sei jedoch nicht in der Lage, diesen Hörerkontakt herzustellen.

"Beim Sprechen muss man etwas fühlen, so entsteht eine Intimität mit dem Hörer." Das könne die K.I. nicht. Sie beherrsche es nur, Dinge zu wiederholen, die es bereits gibt. Doch gerade beim Synchron ginge es darum, spontan und kreativ Texte zu inszenieren, damit sie lebendig klingen.

Die Anwendungsfelder von K.I.-Stimmen werden immer größer

Auch wenn Koschny von K.I. nicht überzeugt ist, vermutet sie, dass computergenerierte Stimmen zukünftig einige Jobs in der Synchronbranche ersetzen könnten. Zu verlockend sei es für gewinnorientierte Unternehmen, durch K.I.-Stimmen Produktionskosten zu senken. Die Anwendungsfelder von K.I.-Stimmen haben sich in den vergangenen Jahren stark erweitert. So vertonen viele Nachrichtenportale kostengünstig ihre Text-Inhalte und auch Amazon Audible testet eine Software, die Hörbücher mit verschiedenen Stimmen sprechen kann.

"K.I.-Stimmen kann man oft daran erkennen, dass die Satzmelodie und der Rhythmus gleich bleiben, sie sehr monoton und eben unmenschlich klingen und einem irgendetwas komisch vorkommt", sagt David M. Schulze im Videotelefonat mit dem rbb. Er arbeitet ebenfalls als Synchronsprecher, seine Stimme ist unter anderem in den "Masters of the Universe"-Hörbüchern zu hören sowie in Dokumentarfilmen. Als Vorstand des Verbandes Deutscher Sprecher:innen setzt er sich für einen faire Regulierung beim Einsatz von K.I. in der Synchronbranche ein.

"Unser größtes Anliegen ist es, dass Künstler eine Wahl haben, ob K.I.-Programme mit ihren Stimmen lernen dürfen oder nicht." Bisher gäbe es bei den Verträgen keine K.I.-Ausschlussklausel. Die meisten Firmen geben zudem nicht bekannt, anhand von welchem Material sie ihre Programme trainieren. Dabei könnte es sein, dass sie dafür Millionen von Audiodateien nutzen, an denen sie gar keine Rechte haben. Falls das zutreffen sollte, wäre das für David M. Schulze einer der "größten Raubzüge der Geschichte", wie er sagt.

Wir kämpfen dafür, dass nur die Urheber von Stimmen entscheiden dürfen, für welche Zwecke sie verwendet werden.

Synchronsprecher David M. Schulze

Verband kämpft für Zustimmungsrecht und Kennzeichnungspflicht

Wie sich die K.I.-Programme finanziell auf die Sprechbranche auswirken, ist bisher laut Verband Deutscher Sprecher:innen schwer einzuschätzen. Im vergangenen Jahr gab es im Werbebereich größere Einbrüche, allerdings habe das auch an der wirtschaftlichen Unsicherheit vieler Unternehmen liegen können. Zudem hatten die Arbeitskämpfe in Hollywood weniger Aufträge zur Folge, da es weniger Filme zu synchronisieren gab.

Der Verband Deutscher Sprecher:innen hat aktiv am "Gesetz über künstliche Intelligenz" mitgewirkt, mit dem die EU den Einsatz von K.I. regulieren möchte. Im März wurde das Gesetz verabschiedet. "Wir kämpfen dafür, dass nur die Urheber von Stimmen entscheiden dürfen, für welche Zwecke sie verwendet werden", sagt Schulze. Auch wenn die Stimmen synthetisiert wurden und als K.I.-Version vorliegen, sollte es seiner Meinung nach eine verpflichtende Zustimmung der Urheber:innen geben, wofür die Stimme dann verwendet wird. Dementsprechend müsse der Einsatz synthetisierter Stimmen dann auch fair vergütet werden.

Der Toningenieur Rudi Redl (links) und die Synchronsprecherin Katharina Koschny arbeiten am 26.06.24 in Berlin an der deutschen Synchronisierung eines Films (Quelle: rbb / Wenzel).
"Menschen mögen einfach am liebsten menschengemachte Kunst": Katharina Koschny und der Toningenieur Rudy Redl bei der Arbeit im Studio. | Bild: rbb / Wenzel

Koschny: "Wirkliche Seelennahrung" gibt es nur durch menschliche Sprecher

Darüber hinaus setzt sich der Verband für eine Kennzeichnungspflicht von K.I.-generierten Inhalten ein und entwickelt ein Gütesiegel für Werke von professionellen Sprecher:innen. "Das ist eine tolle Möglichkeit, um die hohe Qualität der traditionsreichen Synchron-Kultur in Deutschland zu kennzeichnen", sagt er.

Die Zukunft der Branche sieht Schulze trotz aller derzeitigen Widrigkeiten insgesamt positiv. "Menschen mögen einfach am liebsten menschengemachte Kunst", sagt er. Katharina Koschny ist ähnlicher Meinung. In K.I.-Stimmen sieht sie eine "absolute Verarmung der Sprechkunst", wie sie erklärt. "Wirkliche Seelennahrung" gäbe es nur durch kreative Menschen, die sich in einen Text einfühlen und ihn dann mit Leidenschaft präsentieren. "Es ist nicht möglich, menschliche Kreativität in ein Korsett zu zwängen", sagt die Synchronsprecherin. Denn sonst gehe dabei die Ebene der Inspiration verloren. Und genau die sei für eine kreative Sprechkunst erforderlich, die Menschen begeistert - und auch von Menschen gemacht ist.

Beitrag von Marvin Wenzel

12 Kommentare

Wir schließen die Kommentarfunktion, wenn die Zahl der Kommentare so groß ist, dass sie nicht mehr zeitnah moderiert werden können. Weiter schließen wir die Kommentarfunktion, wenn die Kommentare sich nicht mehr auf das Thema beziehen oder eine Vielzahl der Kommentare die Regeln unserer Kommentarrichtlinien verletzt. Bei älteren Beiträgen wird die Kommentarfunktion automatisch geschlossen.

  1. 12.

    Eine KI, sofern man hier überhaupt von Intelligenz im eigentlichen Sinne sprechen kann, wird immer Algorithmen abarbeiten. Sie kann bei Problemstellungen lösungsorientiert extrem logische Ergebnisse erzeugen, auch Emotionen anhand von Körpersprache analysieren, so bspw. erfolgreich bei Borderline-Patienten erprobt. Ob eine KI allerdings jemals eine emotionale Intelligenz erreichen wird, wage ich zu bezweifeln. Da sie vom Fach sind, sollte es bekannt sein, das die Kraft, auch der Klang, die feinen Betonungen, der Stimme und "Macht" des Wortes extrem komplexe Angelegenheiten sind, die auch bar jeder Vernunft oder Logik existieren.

  2. 11.

    Lassen Sie es sich gesagt sein. Sie täuschen sich. Es wird kein Unterschied auszumachen sein. Leider! Aber es ist so.

  3. 10.

    Das bezweifele ich. Emotionen sind mehr als Nullen und Einsen. Selbst mit "einen schönen Tag wünschen" kann man gefühlt tausend Dinge ausdrücken. Ich glaube nicht, das ein Rechenknecht diese Feinheiten, auch solche zwischen den Zeilen, hinbekommen wird.
    Das hat ja selbst "Data" nicht geschafft ;-).

  4. 9.

    Niemals - dagegen wird es Aufstände und Revolutionen geben! Ähnlich wie gegen die Leute, die das BGE verhindern wollen. 2025 wird es eingeführt. I'm happy!

  5. 8.

    Schade nur, dass alle (Politiker und Bürger) wie schon beim Rentensystem erneut den Karren in den Dreck fahren, um am Ende Hauruck-Aktionen zu starten.

    Statt vorausschauend in Ruhe gemeinsam zu entscheiden, wie wir mit Entwicklungen (zB KI) umgehen, wie wir sie steuern statt ihnen nachzuhecheln.

  6. 7.

    Wenn ich nur daran denke, wie gruselig es klingt, wenn Nachrichten von Computerstimmen gesprochen werden, dann hoffe ich, dass sich KI hier nicht durchsetzt. Ich liebe Hörbücher, wenn sie von guten Sprechern gesprochen werden, die mit Worten und ihrer Stimme Bilder in den Kopf zaubern können.

  7. 6.

    Ich bin auch aus der Branche. Arbeite allerdings seit einiger Zeit nicht mehr als Sprecher. Von daher kann ich dazu nur sagen, dass diese Entwicklung in der Seele weh tut. Wenn die Verbandssprecher hier aber von Verträgen reden, mit denen die Sprecher bezüglich der KI geschützt werden, dann haben sie die Zeichen der Zeit einfach nicht verstanden. Man wird künftig keine KI Stimmen von deutschen Synchronsprechern erstellen. Es wird die Synchronfassung mit den Originalstimmen erstellt.

  8. 5.

    Bravo. Schaffen wir immer mehr Arbeitsplätze ab und den Sozialstaat dazu, denn Technik zählt KEINE STEUERN!!!
    Bin gespannt wie sich das Beamtentum dann finanzieren will :)

  9. 4.

    Wer hat denn den Fachkräftemangel über Jahrzehnte herbeigeführt? Die Menschen, die dem Vorschlag nach nun unfreiwillig in "Mangel-Stellen" genötigt werden sollen?

    "Wie viele Synchronsprecher gibt es in Deutschland? Könnten dann ja dem Fachkräftemangel zu Gute kommen. Aber nö, wir können noch so viele Arbeitskräfte haben, wir nehmen uns eh alle nur Jobs, die uns passen."

  10. 3.

    Und wer wird dann Kaiser bzw. Diktator? "Alle im Marketing umschulen zu Krankenschwestern, alle Synchronsprecher zu Lehrkräften sage ich. Und Schischaladenbesitzer zu Handwerkern."

    Mal ab davon, wem was liegt, wer was kann – eine Zwangs-Zuordnung in den und den Beruf, die und die Arbeitsstelle, ist das die Vorstellung vom freien Menschen in der BRD? Bislang wurde das im Hatz-4-System installiert. Und nun ausweiten auf alle?

    Da kann man das GG (freie Berufswahl) ja gleich abschaffen. Diktatur eben.
    Einen besseren Weg zum Ziel gäb's nicht? Alternativlos?!?

  11. 2.

    In 10 J. sieht das anders aus, da funktioniert dann auch das mit den Emotionen.

  12. 1.

    Keine Sorge. Alles nur eine Frage der Zeit. Die KIs kriegen das bald besser hin als jeder menschliche Sprecher. Wie viele Synchronsprecher gibt es in Deutschland? Könnten dann ja dem Fachkräftemangel zu Gute kommen. Aber nö, wir können noch so viele Arbeitskräfte haben, wir nehmen uns eh alle nur Jobs, die uns passen, aber der Gesellschaft nichts bringen. Alle im Marketing umschulen zu Krankenschwestern, alle Synchronsprecher zu Lehrkräften sage ich. Und Schischaladenbesitzer zu Handwerkern.

Nächster Artikel