KLARE SPRACHE: Mit KI besser hören

Der Soundoptimizer HDSX von Kronoton hinter dem TV-Gerät | Foto: © Jörg Wagner


Wer: Gunnar Kron, Entwickler und Geschäftsführender Gesellschafter, Kronoton GmbH, Reinbek
Was: muPRO-Schaltgespräch über Soundoptimierung
Wann: rec.: 09.12.2022, 14:30 Uhr, radioeins-Medienmagazin vom 10.12.2022

(Wörtliches Transkript. Hörverstehfehler vorbehalten.)


Jörg Wagner [00:00:00] Es bleibt technisch, aber auch jetzt mit einem hohen Alltagswert. Vielleicht kennen Sie ja den Marketing-Begriff „Klare Sprache“. Vereinfacht gesagt, wird mit einem technischen Verfahren seit einem halben Jahr auf ausgewählten HD-Fernsehkanälen und in den Mediatheken ein zusätzliches Audioangebot gemacht, das in Echtzeit mit KI die Sprache in der Dominanz stärkt. Plötzlich verstehen Sie zum Beispiel die Dialoge im „Tatort“ besser. Die Ursache für eine schlechte Text-Verständlichkeit kann im Einzelfall eine schlechte Ton-Mischung sein. Der Regelfall ist eher, dass ein Film mit zu unterschiedlichen Geräten wiedergegeben wird. Die Güte der Lautsprecher-Systeme, die ja die Audios ausspielen, schwankt erheblich. Da muss man bei der Mischung einen Kompromiss finden, der jedoch nicht das schlechteste Ton-System in einem dünnen Display zur Referenz hat. CD-Musik zum Beispiel wurde und wird in der Regel auch nicht für Dusch-Radios optimiert. So weit so gut. Software hilft also hier, Verständlichkeit zu erhöhen. Doch was ist, wenn Sie einen Sender oder Streaming-Anbieter erwischen, der das nicht anbietet? Wenn Sie DVDs abspielen möchten, die im Regelfall für Kino-Anlagen optimiert sind? Als ich über die letzte IFA lief in Berlin, fiel mir ein Kästchen auf, etwas kleiner als eine Zigarettenschachtel. Ich freute mich, dass genau zu diesem Problem inzwischen eine Hardware, die mit Software arbeitet natürlich, auch mit KI, angeboten wird. Ich freue mich, den Entwickler hinter diesem Optimizer, so heißt das Gerät, jetzt in der Leitung zu haben. Ein Hallo zu Gunnar Kron von Kronoton in Reinbek in der Metropolregion Hamburg.

Gunnar Kron [00:01:34] Hallo, ich freue mich, hier zu sein.

Jörg Wagner [00:01:36] Ihr Kästchen kann noch mehr als Sprache klarer machen. Bevor wir ins Detail gehen, Herr Kron, was war denn Ihr Impuls, sich der Sound-Optimierung überhaupt hinzugeben?

Gunnar Kron [00:01:46] Der Impuls, das war ich selber. Ich saß auf meinem Sofa vor dem Fernseher und war total genervt von diesen Lautstärkeschwankungen, den beständigen und auch der teils unverständlichen Sprache bei TV und Streaming. Also diese Lautstärkeschwankungen innerhalb von Programmen oder wenn man Programme wechselt oder auch Anbieter wechselt. Und eben was wir alle kennen, da kommt die laute Explosion, kommt der leise Dialog, die laute Explosion. Na ja, und dann habe ich mir gesagt: Ich bin ja Ton-Experte mit meiner Firma Kronoton. Wir beschäftigen uns ausschließlich mit Klangverbesserungsalgorithmen und -Produkten. Alle mit dem gleichen Ziel. Und dann habe ich mir gesagt: Ich guck mal, ob ich der Einzige bin, der darüber genervt ist und hab‘ ein bisschen im Internet gesucht und hab‘ festgestellt: Nein, wir sind ganz viele. Es gibt Foren, es gibt ganze Seiten, die sich mit diesem Thema beschäftigen. Tausende reden jeden Tag darüber. Und dann habe ich mir gesagt: Gut, es ist ein Problem, was jeder kennt. Und meine Firma Kronoton ist immer darauf erpicht, Probleme zu lösen, die jeder kennt mit neuen Lösungen. Und so entstand der „HDSX TV-Sound-Optimizer“, den man einfach zwischen ein Fernsehgerät und ein externes Soundsystem steckt und der dann in Echtzeit die Lautstärkeschwankungen intelligent ausgleicht und die Sprache durchweg verständlich macht, sodass man sich einfach nur zurücklehnen muss und genießen kann, was man da sieht und hört.

Jörg Wagner [00:03:15] So einfach ist es nicht ganz. Also man braucht schon erst mal nicht nur Ihr Kästchen, sondern auch die Fähigkeit, das Gerät anzuschließen. Das ist jetzt nicht so trivial, wie es vielleicht klingt, aber auch nicht Raketenwissenschaft. Also was braucht man überhaupt für Equipment, um das Gerät dann da zuschalten zu können?

Gunnar Kron [00:03:34] Ja, die Fernseher sind nicht dafür ausgestattet, einen extern optimierten Ton selber wiedergeben zu können. Und insofern ist es so, dass man einen Fernseher natürlich braucht und dann aber ein fernsehexternes Soundsystem. Das kann eine Soundbar sein, eine HiFi Anlage, das kann auch ein AV-Verstärker sein, an den Lautsprecher angeschlossen sind, sogar ein Mobile Speaker und auch Kopfhörer. Also, es muss etwas sein, was Lautsprecher hat und dann wird der Ton aus dem Fernsehgerät mit unserem Optimizer verbunden. Das heißt, der Fernseher hat dann einen Ton-Ausgang. Wir bieten da zwei Variationen, entweder den digital-optischen Ton-Ausgang oder den HDMI-ARC-Ausgang, wird mit einem Kabel mit unserem HDSX TV-Sound-Optimizer verbunden, geht von unserem Gerät dann in das TV-externe Soundsystem, was dann eben, wenn unser Kästchen aktiviert ist, den optimierten Ton wiedergibt. Und parallel dazu benötigen wir natürlich noch Strom, den wir meistens dann vom Fernseher oder vom externen Soundsystem beziehen, in Form von fünf Volt USB-Strom, also ganz wenig. Und das hat den Vorteil, dass eben unser Gerät nicht extra an- und abgeschaltet werden muss, sondern es schaltet sich dann mit dem Gerät, an das es angeschlossen ist, ein und aus. Man kann es also vergessen. Wir nennen das so „plug and forget“. Es arbeitet dann im Hintergrund quasi beständig und man merkt auch nicht, dass da irgendwas manipuliert wird.

Jörg Wagner [00:04:59] Jetzt kommen wir doch mal zu den Manipulationen. Da ist dann Ihr Geschmack einprogrammiert? Also was ist optimal?

Gunnar Kron [00:05:06] Also optimal war bei uns in der Entwicklung eine Steuerung, die sich auf den Content einstellt, also auf die Inhalte einstellt, die ich sehe und höre. Das heißt, die Automatik, die da drin ist, die richtet sich nach dem Kontext. Das heißt, was kam rein, was kommt als nächstes und bildet quasi immer in Bezug auf das, was gerade läuft, den besten Wert? Und was ist der beste Wert? Der beste Wert ist in Sachen Lautstärke, dass es eben nicht zu doll nach oben oder zu doll nach unten schwankt, aber gleichzeitig interessant zu hören bleibt. Wir nennen das die sogenannten Kurzzeit-Dynamiken, die wir da einbehalten, das heißt der Ton, wenn man ihn jetzt immer gleich laut machen würde, wer ja auf Dauer auch so ein bisschen langweilig. Und insofern machen wir neben dieser Echtzeit-Lautstärke-Nivellierung noch diese Kurzzeit-Dynamiken mit rein, die wir belassen, sodass der Ton doch lebendig bleibt. Und das ist für uns der ideale Wert. Wenn nämlich Sie als Zuschauer und Hörer sagen: Das ist so produziert worden, mir fällt überhaupt nicht auf, dass da irgendein Gerät im Hintergrund arbeitet, dann ist das für uns der ideale Wert. Auf Sprache bezogen ist es so, dass ich ja den Akteuren beständig folgen möchte, das heißt, ob sie nun in einer lauten Szenerie stehen, mit ganz viel Hintergrundgeräuschen, ganz viel Musik oder ob sie nun leise, ganz intim miteinander sprechen, sind zwei unterschiedliche Szenarien. Und da haben wir drauf geachtet bei der Entwicklung, dass eben auch die Sprache jetzt nicht immer die gleiche Lautstärke hat oder nicht unnatürlich in bestimmten Frequenzen angehoben ist, dass sie zu spitz klingt, sondern dass die intime Szene intim bleibt, aber durchgängig wortverständlich. Während diese Szene mit viel Musik und viel Hintergrundgeräuschen eben lebendiger bleibt, aber trotzdem die Sprache davor steht. Und ich denke, das ist noch eine Besonderheit, die wir da rein entwickelt haben. Wir stellen die Sprache vor die Musik und vor das Geräusch. Das ist wirklich räumlich, dass wir das davor stellen, sodass also die Sprache aus sich selbst heraus schon mal mehr Platz hat und dann man sie gar nicht so verfremden muss in den Frequenzen, damit sie wortverständlich bleibt.

Jörg Wagner [00:07:19] Das nennt man KI. Dass sie also Software so programmieren, dass die erkennt, um welche Sprach-Charakteristik es sich handelt. Das ist sicherlich, wenn man mal überlegt, dass das Digitale Satellitenradio früher nur angefangen hat mit Spracherkennung und Musikerkennung und dass man da für den persönlichen Geschmack sich das einprogrammieren konnte vor 30 Jahren ein enormer Fortschritt, aber dennoch bleibt es ja die subjektive Einstellung der Programmierer. Das ist jetzt wahrscheinlich der Einfachheit halber geschuldet. Aber könnte man nicht auch für den individuellen Geschmack ein Kästchen entwickeln mit unterschiedlichen Parametern?

Gunnar Kron [00:07:57] Definitiv. Doch. Und das war bei uns eine große Diskussion, ob wir das machen, also ob wir einstellbare Parameter mitliefern oder ob wir, wofür wir uns dann letztendlich entschieden haben, quasi dieses Prinzip machen, Anstellen und dann nicht mehr verändern können. Also der Grund, warum wir uns dafür entschieden haben, keine Parameter anzubieten, das war, dass wir selber Tests gemacht haben. Wir haben drei Jahre lang entwickelt und getestet. Und ein Beispiel. Also, wenn man jetzt ein Parameter macht, ich würde jetzt einen Drehregler an unser Gerät bringen, was es mir ermöglicht, die Sprache weiter nach vorne zu drehen oder weiter nach hinten zu drehen. Oder selbst wenn man Raster machen würde 1-2-3-4. Und je weiter man nach oben geht, desto mehr wird es, haben wir festgestellt …

Jörg Wagner [00:08:41] Oder wie bei Equalizern eben mit verschiedenen Band-Reglern selber, was weiß ich, die V-Form hinkriegen oder eine lineare.

Gunnar Kron [00:08:49] Ja genau. Und da haben wir festgestellt bei unseren Tests, dass das in Bezug auf Sprache zum Beispiel eher so eine Unzufriedenheit fördert, weil, man stellt es ein, man hört sich was an, aber man weiß ja, es gibt auch noch andere Möglichkeiten und vielleicht ist das andere, was ich gerade nicht eingestellt habe, vielleicht doch besser. Und das ist eine Sache, die lässt einen nicht mehr los, so unsere Erfahrung, sodass man immer das Gefühl hat, ich müsste nochmal ran, ich stelle nochmal nach, ich will noch mal den Vergleich hören. Und dass wir da … als wir das festgestellt haben, dass man quasi nie fertig wird und das ist auch nicht so praktikabel wäre zu sagen, ich gucke jetzt einen Film, da stelle ich auf eins und dann weiß ich, ich gucke eine Musiksendung, stelle ich auf vier oder so, haben wir uns dafür entschieden, wirklich so lange intensiv zu tunen, wie es so schön heißt in unserem Bereich, also Einstellungen vorzunehmen, bis es quasi mit allem Content, der da kommt, optimal funktioniert und wir unser Versprechen einhalten können, egal was da kommt, dass man eben alles versteht und dass man eben nicht die Lautstärke mehr manuell nachregeln muss. Und das war … noch ein Argument gibt es für uns, das ist, dass das externe Soundsystem, was nach uns kommt, diese Möglichkeiten zum Beispiel, die Sie angesprochen haben, eines Equalizers hat. Also, wenn man sagt, ich möchte individuell jetzt mehr Bass oder so, mehr Höhen, mehr Mitten, dann kann man das auch am externen Soundsystem einstellen. Dafür brauchen wir dann uns nicht. Und dieses Sammelsurium der Überlegungen hat letztendlich dazu geführt zu sagen: Und damit sind wir auch sicher für alle, die sich nicht mit Technik auskennen. Wir schaffen dieses Golden Preset, wie es so schön heißt. Man stellt es an, es funktioniert und man muss sich um nichts mehr kümmern.

Jörg Wagner [00:10:34] Nun gibt es ja … und das werden gerade HiFi-Puristen wissen, wenn sie UKW-Radio hören, unterschiedliche Auffassungen, wie weit man ein Signal manipulieren sollte. Es ist kein Geheimnis, dass radioeins zum Beispiel auch den Ton am Sender noch mal optimiert mit dem sogenannten Optimod. Ein in der Radiowelt sehr bekanntes Gerät. Die einen Radio-Anbieter hauen da völlig alles hoch, was da nur hoch zu regeln ist, damit der Sound möglichst ja knallt, damit er, wenn man im Auto sitzt, denkt, man ist ausgeschäumt und so weiter und so fort. Und andere gehen damit sehr sensibel um, um die Klangmanipulation möglichst gering zu halten, aber dennoch die Verständlichkeit zu erhöhen. Wie haben Sie denn mehr oder weniger jetzt den Klang im Ohr gehabt? Also ist das Signal, was man da hört letzten Endes, dem Original sehr ähnlich? Oder ist das dann doch schon so, dass man merkt, dass da manipuliert wurde?

Gunnar Kron [00:11:37] Also wenn man jetzt den A-B-Vergleich hört einer dynamischen Szene, eines Films zum Beispiel, dann hört man deutlich, dass sich da bei uns etwas geändert hat. Einfach in dem Sinne, dass wenn im Original jetzt eine laute Szene war, eine laute Explosion und danach wird ganz leise gesprochen, dann kommt wieder diese laute, nächste Szene, dann ist es ja ohne uns, wie ich das beschrieben habe, wie so eine Wellenform, laut, leise, laut.

Jörg Wagner [00:12:01] Wir können das mal, damit das nicht zu trocken klingt … Sie haben ja ein Soundbeispiel vorbereitet. Hören wir uns mal das erste Beispiel an und ich hoffe, dass man das trotz Optimod am Sendeweg von radioeins erst mal in der Unperfektheit überhaupt wahrnimmt. Also die Sprache müsste jetzt bei Ihnen am Lautsprecher zu Hause oder da, wo Sie uns auch immer hören, leiser klingen als das Umgebungsgeräusch. Fahren wir mal ab.

O-Ton [00:12:30] (Original)

Jörg Wagner [00:12:44] So, jetzt hat Ihre Software erkannt, da ist leise Sprache, leiser Dialog und eine extrem spontane, laute Detonation mit teilweise auch Musik. Und jetzt sagen Sie der Software: Also, das Runterregeln, das andere hoch? Ist das so einfach?

Gunnar Kron [00:13:01] Nein. Wir haben eine neue Technologie entwickelt zur Lautstärkeregelung, die folgendermaßen funktioniert: Unsere Technologie erkennt, was in der maximalen, optimalen Lautstärke vorhanden ist und was in dem Kontext dazu in Echtzeit zu leise ist für die Wahrnehmung dessen, der hört. Und das, was laut ist, das fassen wir nicht an, nur was zu leise ist in diesem Kontext, das wird gehoben, und zwar auch nicht als Ganzes, sondern frequenzgenau da, wo es wichtig ist, quasi die Verständlichkeit und den Kontext der Szene besser wahrzunehmen in Sachen Lautstärke. Und wenn dann die nächste laute Szene wieder kommt und sie ist optimal laut, wird sie nicht angefasst. Das hat den großen Vorteil, dass anders als bei klassischer Kompression, bei dem man laute Stellen quasi nach unten drückt und damit auch Teile des Klangs zerstört, wir diese volle Klangqualität behalten und nur da eingreifen und sehr sensibel eingreifen, wo wir eben wissen, das ist dann nicht so optimal wahrgenommen werden würde, würden wir diesen Eingriff nicht tun. Und wenn Sie gleich das Beispiel mit Optimizer spielen, dann hört man auch ganz deutlich, hoffentlich auch mit dem Optimod, dass eben die Hörwahrnehmung grundsätzlich die gleiche bleibt. Das heißt, man hat nach wie vor das Gefühl, diese Flugzeuggeräusche sind laut. Und das hat bei mir den Effekt: Oh das ist … das ist eine … eine intensive Szene. Aber dennoch verstehe ich die Schauspieler wesentlich besser. Beides gemeinsam haben wir hinbekommen.

O-Ton [00:14:40] (optimiert)

Jörg Wagner [00:14:57] Also, für mich ist das sehr erstaunlich. Für manche am Radiogerät möglicherweise nicht, weil die erste Aufnahme eben durch den Optimod im Sendeweg schon etwas klangkorrigiert oder lautstärkekorrigiert wurde. Deswegen empfehle ich auf jeden Fall den Medienmagazin-Podcast, wo also diese Möglichkeit den A-B-Vergleich wahrzunehmen besser ist. Zusätzlich. Also wer jetzt noch nicht überzeugt ist. In der Nacht zum Montag erscheint der Podcast wieder in der ARD-Audiothek. Aber nochmal zurück zu dem, was Sie gemacht haben. Normalerweise ist das so, das kenne ich aus der Tonbearbeitung, wenn man ein Signal anhebt, weil es zu leise ist, dann kommt Rauschen dazu. Wie schaffen Sie es denn da, nicht irgendwelche Artefakte, Fehler mit zu verstärken?

Gunnar Kron [00:15:42] Das ist … also Artefakte, die finden ja ganz unterschiedlich statt. Also gerade auch bei komprimierten Audiodateien tauchen sie plötzlich sprunghaft auf. Und das ist für uns etwas … bis zu einem gewissen Level, muss ich dazu sagen … also wenn Artefakte auftauchen, die nicht sehr dominant sind, dann schaffen wir durch unsere Regelung, die quasi ein bisschen zu reduzieren in Richtung, dass wir sie ein bisschen wegwischen, weil wir das betonen, wo sie halt nicht sind. Aber wenn es Artefakte sind, die übers ganze Audio verteilt sind, also Rauschartefakte zum Beispiel, die in allen Frequenzen vorkommen, dann ist es so, wir verschlimmern die quasi nicht, aber wir rechnen sie jetzt auch nicht in Echtzeit automatisch raus. Das würde zu lange dauern, letztendlich für den Prozessor und dann wären wir nicht mehr lippensynchron. Zum Glück ist es aber so, also für uns als Glück, dass die Content Creator, mit denen wir zu tun haben, das sind alles ja Professionelle, außer bei YouTube, jetzt bei dem Streaming Kanal, wo jeder quasi seinen Content hochladen kann. Das heißt, der Fernsehcontent oder Streamingcontent ist sehr hochwertig und die Artefakte gibt es eigentlich so gut wie gar nicht.

Jörg Wagner [00:16:52] Jetzt bleibt nur noch die Gretchenfrage: Wie halten Sie es mit dem Preis? Da steckt da viel Entwicklungsarbeit drin, haben Sie selber gesagt. Drei Jahre und intelligente Software. Was muss man dafür hinlegen?

Gunnar Kron [00:17:04] Ja, also wir haben uns gesagt, wir wollen, obwohl wir wirklich mit Komponenten arbeiten, wie zum Beispiel dem DSP-Chip, den wir drin haben, der normalerweise in Highend-Automotive-Anlagen eingesetzt wird, haben wir uns immer orientiert, dass wir sagen, wir möchten eine neue Lösung, eine hochwertige Lösung, aber zu einem bezahlbaren Preis. Wir haben zwei Modelle, die im Unterschied haben, dass sie diese unterschiedlichen Anschlussvarianten an TV- und Soundsystem abdecken. Das ist einmal der HDSX TV-Sound Optimizer mit digitaloptischen Ein- und Ausgängen, der kostet 129.

Jörg Wagner [00:17:39] Also mit diesem roten Licht.

Gunnar Kron [00:17:39] Genau. Das mit dem roten Licht, diese quadratische Buchse. Das ist die eigentliche am meisten verbreitete Buchse tatsächlich nach wie vor bei TV- und externen Soundsystemen. Der kostet 129 € und der HDSX TV-Sound-Optimizer HDMI ARC hat die gleichnamigen Anschlüsse. Das heißt, es ist ein HDMI-ARC-Anschluss, eine modernere Schnittstelle. Aus dem Grunde es gibt sie noch nicht so lange wie die digitaloptische und komplettiert somit die Anschlussmöglichkeiten. Das Gute aber in diesem Zusammenhang ist, dass wir uns in der Weihnachtszeit befinden und wir für beide Geräte exklusive Angebote machen. Man kann jetzt also sparen. Insofern gibt es jetzt den digitaloptischen für 114,99 statt 129 und die HDMI-ARC-Variante für 119,99 anstatt 139.


Hinweis:
* radioeins sendet inzwischen, seit 16.05.2022 nicht mehr mit dem Optimod, sondern mit einem Omnia.
* Für dieses Schaltgespräch erhielt ich zwei Leihgeräte, die wieder zurückgehen. Es floss auch kein Geld. Die Initiative für das Interview ging von mir aus, weil das Gerät nach meiner Einschätzung in dieser Güte und Funktionalität im Handel ein Alleinstellungsmerkmal besitzt.






Print Friendly, PDF & Email