Während Computer sprechen und auch zuhören lernen, verändert sich nicht nur der Nutzeralltag. Die rasante Entwicklung künstlicher Intelligenz wirbelt die Berufswelt durcheinander. Doch wer sind die Gewinner und wer die Verlierer?
Der Vormarsch künstlicher Stimmen ist in vollem Gange. Die meisten von uns begegneten ihnen zuerst durch die Nutzung ihres Navigationssystems im Auto. Vor einigen Jahren zogen die Smartphones mit ihren Sprachassistenten nach. Die virtuellen Diener haben inzwischen auch den Sprung in viele Geräte der Unterhaltungselektronik geschafft. Neben Siri und dem Google Assistenten gibt im Lautsprecherbereich vor allem Amazons Alexa den Ton an, was in diesem Falle wörtlich zu nehmen ist. Inzwischen darf Alexa sogar BMW fahren.
Die Entwicklung in diesem Bereich schreitet so schnell voran, dass im Frühjahr kein geringerer als die Frankfurter Allgemeine Zeitung in einem Technik-Report beleuchtete, wie stark inzwischen künstliche Stellen die Sprecherberufe umkrempeln. An vielen Beispielen aus alltäglichen Situationen illustriert die FAZ die bedrohliche Lage für alte Berufsbilder.
Während die Passagiere der Deutschen Bahn durch inzwischen kultverdächtiges Englisch und den singenden Unterton bei deutschen Zugdurchsagen bisher zweifelsfrei sicher sein konnten, dass ein Mensch zu ihnen spricht, ist das zum Beispiel am Frankfurter Flughafen längst nicht mehr der Fall. Da prasseln täglich zehn tausende von Ansagen auf die Fluggäste herab, von denen die meisten von einer Computerstimme vorgelesen werden. Fast so, als wären sie ein elektronisches Buch, aus dem Amazon Alexa heutzutage mit erstaunlicher Perfektion ein Hörbuch machen kann.
Wenn man sich die Technik dahinter verdeutlicht, löst das ganz nach persönlichem Standpunkt beziehungsweise Berufsstand Verzückung oder blankes Entsetzen aus. Auf ihrem Weg nach oben geht Künstliche Intelligenz im Grunde wie ein DJ vor, der aus Samples von anderen Songs einen neuen Musiktitel mixt. Die eigentlichen Textbausteine stammen aus Sprachdatenbanken mit Aufnahmen geschulter Sprecher. Ironischerweise wickeln die Beteiligten damit ihren eigenen Berufsstand ab. Längst gibt es viele Ratgeber-Videos auf YouTube, die (noch) erkennbar von einer Software gesprochen werden. Doch die Qualität entwickelt sich rasant und es ist nur eine Frage der Zeit, bis die Maschinen in diesem Bereich zu einer echten Konkurrenz für Profis werden. Im Moment forschen Wissenschaftler auf der ganzen Welt daran, was eine Stimme sympathisch macht. Schließlich haben Forschungen bestätigt, dass wir dazu neigen, einer netten Computer-Stimmen wie einer menschlichen zu vertrauen.
Doch das Ganze ist keine Einbahnstraße. Parallel zur Verbesserung der Sprachausgabe arbeiten die Experten fieberhaft daran, die Qualität der Spracherkennung zu verbessern. Das soll Maschinen die Gelegenheit geben, am Unterton ihres Meisters dessen Stimmung herauszufiltern und entsprechend darauf zu reagieren. Vor allem aber sollen smarte Geräte überhaupt erst in die Lage versetzt werden, ihren rechtmäßigen Besitzer zweifelsfrei an dessen Stimme zu erkennen, um den Pincode oder Fingerabdruck zu ersetzen, berichtete unlängst die Welt.
Oder doch nicht? Dummerweise hält nämlich die künstliche Intelligenz (KI) im Bereich der Sprachsynthese mit der Spracherkennung locker mit. So bleibt nach dem Lesen des Berichts zu befürchten, dass der Nutzen der neuen Technik sich schnell selbst aufheben dürfte, weil unser Freund der Computer jede gelernte Stimme in Zukunft genauso gut imitieren kann, wie er sie zu erkennen gelernt hat. Wie weit der Stand der Technik in diesem Bereich bereits ist, demonstrierte Spiegel Online mit einem Test der Sprachimitation-Software des kanadischen Start-ups Lyrebird.
Da im Bereich auf Künstliche Intelligenz zunehmend auf Lernfähigkeit gesetzt wird, kann man davon ausgehen, dass sich der technische Fortschritt schon sehr bald auf die Sprecherberufe auswirken dürfte. Übrig bleiben wird dann höchstwahrscheinlich nur ein kleiner Kreis von sehr markanten Sprecher-Typen, auf deren Timbre die Zuhörer schon von Auftritten im Rundfunk oder Fernsehen konditioniert sind. Diese Erkenntnis mag beruhigend sein, für alle kantigen Charaktere, die sich ihren Platz in der Medienwelt bereits erobert haben. Doch nicht alles, was eine bewegende Sprechweise ausmacht, ist lernbar, allen Sprachübungen und geschulter Atmung zum Trotz, die Profis zu Beginn ihrer Laufbahn in der Regel über sich ergehen lassen.
Vor dem Hintergrund, dass ohnehin nur wenige prominente Stimmen durch hohe Stundensätze entlohnt werden, wirkt die gegenwärtige Entwicklung auf den Sprecher-Nachwuchs nicht unbedingt ermutigend. Nicht umsonst sind die positiven Berufsperspektiven, welche etwa die FAZ dem aktuellen Trend abgewinnen kann, neue Stellen im Bereich der KI-Sprachforschung, die dann allerdings bei allem Talent fest verbunden sind mit fundierten Computer- und Programmierkenntnissen.
Für Produktanbieter bedeutet der Wandel einen veränderten Anspruch an die Auswahl der Mitarbeiter in Forschung und Entwicklung. So genügt es zum Beispiel in Zeiten von Amazon Echo mit Alexa Sprachsteuerung einem Lautsprecher-Entwicklerteam nicht mehr, sich mit Akustik und dem Verhalten von Bässen und Hochtönern auszukennen. Die Mikrofon-Arrays zur Erfassung der Sprachbefehle wollen genauso beherrscht wie die komplexen Algorithmen, die eine Kommunikation zwischen Mensch und Maschine überhaupt erst ermöglichen.
Damit nicht genug: diese neuen Technologien gehen ein Hand mit internationalen Kooperationen. Solche High-Tech-Produkte kommen heute meist aus fernöstlichen Fabriken und die Produktverantwortlichen müssen sich gerade beim Einsatz von Sprach-Assistenten mit allerlei Lizenzen und Zulassungen auseinandersetzen. Da hat das dann der junge Ingenieur respektive die frisch gebackene Ingenieurin ganz schnell mit mächtigen Multis wie Google oder Amazon zu tun. Das setzt gleichzeitig zum immensen Fachwissen gewisse Softskills, fundierte Englischkenntnisse und nicht zuletzt ein agiles Mindset voraus. Was heute noch gilt, könnte morgen schließlich schon Geschichte sein.
Den steigenden Bedarf an vielseitige gebildeten Fachkräften kann aber nicht allein der Nachwuchs von den Universitäten decken. In vielen Fällen lässt sich auch durch gezielte Weiterbildungsmaßnahmen die vorhandene Belegschaft weiterbilden. Das gilt sogar für das Management, das mit verkrusteten vertikalen Hierarchien von agil aufgestellten Gruppen mit fortschrittlichen Arbeitsprozessen gnadenlos abgehängt wird. Schließlich gilt es, immer mehr Arbeitsschritte in immer größeren, inhomogeneren Teams reibungslos abzustimmen. Durch die Konvergenz verschiedener Medien stehen heute Hersteller – ganz gleich, ob aus dem Telekommunikations-, Automobil- oder Unterhaltungselektronik-Bereich vor der Herausforderung, mit immer größeren Teams an der Entwicklung einzelner Produkte zu arbeiten.
Für Romantik bleibt offenbar wenig Platz in dieser schönen neuen Welt. Schließlich geht es in der Sprachforschung im Sinne von künstlicher Intelligenz nicht um flammende Reden im Stile eines Protagonisten aus einem Theaterstück von William Shakespeare, ja noch nicht einmal um das Vortragen eines Werbespots. Die Forscher beschäftigen sich vielmehr wie die anonymen Wort- oder besser gesagt Silben-Geber hinter den Kulissen der unzähligen Navigationsstimmen oder Sprachassistenten sozusagen mit den Elementarteilchen der Sprache.
Dass man auch damit groß herauskommen kann, erlebte eine sympathische ältere Dame aus Atlanta, die eines Tages überrascht feststellte, dass die von ihr vorgetragenen Sprachfetzen die Grundlage zur Ikone unter den Computerstimmen wurden: Susan Bennett bemerkte, dass Siri mit ihrer Stimme spricht. Was muss das für ein Moment sein? Zwar hat Apple ihr das nie offiziell bestätigt, aber auch nie dementiert. Da sich jeder iPhone-Nutzer und inzwischen auch Eigener von Apples erstem Lautsprecher namens Home Pod im englischen Sprachraum selbst ein Bild davon machen kann und Bennett damit stolz in die Öffentlichkeit ging, ist die Dame heute ein richtiger Fernsehstar, der durch einschlägige Fernsehshows wie David Letterman tourt. Also, wenn das mal kein positives Beispiel für die gegenseitige Befruchtung von Mensch und Maschine ist…
Diesen Text hat der Autor übrigens zu weiten Teilen über die Dragon Spracherkennungssoftware an seinem MacBook Pro diktiert.