Audio boomt – aber zukunftsfähig nur mit Metadaten

Für Radiosender und Audioproduzenten reicht es schon lange nicht mehr aus, nur die Audios in den Vertriebsweg zu geben. Die steigende Nutzung von Multimediageräten für Audioinhalte erfordert auch für die gezielte Suche und Präsentation Transkripte, Bilder und andere Zusatzangebote.

Download

Was: Gespräch über die wachsende Bedeutung von audio-on-demand-Angeboten
Wer: Robert Förster, Geschäftsführer, Multicast Media GmbH, Potsdam
Wann: 11.11.2017, zwischen 18:05 und 19:00 Uhr radioeins Medienmagazin und in einer bearbeiteten Fassung im rbb Inforadio vom 12.11.2017, 10:44/15:24 Uhr
Wo: Potsdam, Medienstadt Babelsberg, radioeins-Senderegie

Vgl.: Zukunftsmusik: Neuer Audiostandard MPEG H aus dem radioeins-Medienmagazin vom 28.10.2017

(wörtliches Transkript, Hörverständnisfehler vorbehalten)

Jörg Wagner: „Ikarus“ ja motiviert die Kollegen von ard.de, doch auch die ARD-Mediathek zu überarbeiten. Das werden die garantiert tun, wenn der Druck auf dem Audiomarkt immer weiter voranschreitet und dass sich auch eine, ich sag’ mal, “normale” Multimedia-Firma damit beschäftigt mit Audio, ist ja vielleicht schon der Hinweis, Robert Förster hier in Potsdam, dass Audio nicht nur mal so eine Welle ist wie 3D und dann wieder in der Versenkung verschwindet und ja … aber es bleibt dabei Deine Prognose, die ich gehört habe – jetzt muss ich mich outen, wo ich Dich überhaupt kennengelernt habe, man muss manchmal nach München fahren, um jemanden aus Potsdam kennenzulernen – war ja das tatsächlich: Ohne Text wird Audio nicht überleben. Und deswegen habt Ihr was genau entwickelt?

Robert Förster: Korrekt, das Internet ist ja textbasiert und deswegen müssen wir versuchen, Audiocontent auch sichtbar zu machen, Audiocontent zu visualisieren. Und das ist unsere Aufgabe. Wir haben eine Word Tagging Audiotranskription entwickelt, wobei jedes einzelne Wort eines Interviews, einer Nachrichtensendung, jedes einzelne Wort getagged wird. Es wird mit dem Audio verknüpft und damit ist es auffindbar. Es ist suchbar. Und es ist multimedial anzureichern.

Jörg Wagner: Das hört sich doch einfach an. Ich nehme mal an, dass die NSA hat ein fortgeschrittenes Programm, um alle Telefongespräche dieser Welt, die für sie interessant sind, sofort zu transkribieren. Wenn man als Journalist versucht, Software zu vergleichen, dann stellt man sehr schnell fest, dass mit 80% Texterkennung kommt man nicht sehr weit. Man hat trotzdem sehr viel Zeit noch mal händisch zu übbearbeiten. Wie macht Ihr es?

Robert Förster: Wir nutzen verschiedene Engines. Unsere Software ist dafür verantwortlich, diese Engines zu matchen. Dadurch bekommen wir ein viel besseres und viel effektiveres Ergebnis. Wir haben …

Jörg Wagner: Moment. Matchen heißt also Vergleichen …

Robert Förster: … wir vergleichen. Wir vergleichen die Ergebnisse der verschiedenen Engines. Also, ob es Google Cloud Speech ist, ob das die Plattform von Amazon Lex ist, wir haben eine eigene entwickelte Open-Source-Plattform CMU Sphinx, die wir immer wieder weiterentwickeln, dass wir auch eine selfhosted-Variante irgendwann anbieten können. Wir vergleichen die und haben so eine Transkriptionsquote von 85 bis zu 97 Prozent. Und das ist dann schon je nach Qualität des Audios ein echt super Ergebnis. Wnn ich von hundert Worten nur drei redigieren muss, dann bin ich schon einen wahnsinnigen Schritt voraus.

Jörg Wagner: Aber es reicht nicht einfach nur den Text zu haben. Was macht Ihr genau? Kann man denn z. B., wenn man jetzt den Text hat und überfliegt ihn und sagt, die Passage will ich nicht haben … normalerweise markiert man das und dann delete und dann ist es weg. Und ist dann auch der Ton weg. Kann man das machen?

Robert Förster: Tatsächlich kann man machen. Also, wir nennen das ganze KI-Cutting. Das heißt, ich kann innerhalb des Textes, kann ich schneiden und im Audio ist es dann auch weg. Ich kann den Text größer machen, dann kann ich ihn sozusagen im Audiofile, kann ich es aufblähen dieses Audio. Für uns ist aber viel wichtiger, dass wir NLU und NLP haben. Das heißt: natural language understanding und natural language processing. Das heißt, ich kann den ganzen Text … kann ich schon verkontexten. Also, ich kann die Themen, die doch besprochen werden, werden automatisch erkannt und werden kategorisiert. Und das ist für eine Audiothek ein unglaublicher Vorteil, weil ich dann schon als User ganz einfach mit Stichworten nach bestimmten Interviews suchen kann, nach bestimmten Inhalten suchen kann. Und ich werde sofort fündig.

Jörg Wagner: Ich dachte immer, das passiert schon, dass also die Software selbst, wenn ich z. B. “Bank” sage, weiß, ob es sich um eine Samenbank handelt, eine Blutbank in dem Fall oder eine richtige Staatsbank oder eine Parkbank.

Robert Förster: Tatsächlich nicht, denn es ist der Redakteur, der den Text schreibt oder der das Audio abspeichert, dafür verantwortlich ist, richtig zu verschenken, mit Keywords zu versehen, die im Hintergrund mit abgespeichert werden. Wenn der Redakteur das nicht macht, weil er keine Zeit hat, weil … aus welchen Gründen auch immer, dann ist dieses Audio nicht mehr auffindbar und man kann es unter den verschiedenen Kontexten-Kategorien nicht mehr finden. Und das ist unsere Aufgabe, das zu automatisieren, die Aufgabe des Redakteurs darauf zu konzentrieren, dass er das Audio richtig schneidet, dass er den Inhalt ordentlich wiedergibt, dass er sich auf seine Arbeit als Journalist konzentrieren kann und der Rest, diese versocial-media-mäßige Verteilung dieses multi-channeling, dieses multimedia-lastige, das überlassen wir … oder das sollen sie Sie uns überlassen als Service Anbieter.

Jörg Wagner: Sind solche Sachen auch denkbar … Du hast die Probleme gesehen, ins Netz zu kommen, ein Zitat des VDZ-Präsidenten zu twittern, dass aus der Sendung sowas automatisiert abgeschickt wird?

Robert Förster: Absolut, also mit unserer Softeware ist es möglich, im Live-Betrieb ein Zitat zu markieren und das per einem Klick direkt auf die Plattformen, die angegeben sind: Twitter, Facebook einfach zu teilen. Dann gibt es diesen Tweet als Text und hinterlegt als Audio. Man kann es sozusagen mit Drag-and-Drop sogar noch anreichern, mit einem Bild, was man vor Ort gemacht hat, wenn man jetzt ein Interview hier im Studio hat – im wunderbaren radioeins-Studio mit einem Künstler kann man ja noch ein Foto machen – kann das mit anreichern. Das meine ich mit multimedial. Und dann wird auch die Audiothek natürlich viel interessanter, weil ich auf verschiedensten Plattformen meinen Inhalt ausbreiten kann und verschiedenste Zielgruppen erreichen kann. Und das ist ja das Schöne an Radio. Ich bin wieder in der digitalen Welt. Ich kann wieder agieren. Ich kann mein Publikum wieder erreichen, da wo ist. Gerade junge Zielgruppen sind nicht mehr im analogen UKW Radio zu finden, die sind auf Plattformen wie YouTube, Facebook und sozialen Netzwerken unterwegs oder Audible oder Spotify und wenn sie dort auch noch ihre Inhalte aus dem Radio Programm finden, dann ist Radio wieder da.

Jörg Wagner: Und wir haben es ja gehört gerade auf den Münchner Medientagen, hier in der Sendung hat es jemand vom IRT erklärt, der dort die Öffentlichkeitsarbeit macht, man arbeitet am Projekt “Orpheus”. Das kann man sich übrigens, wenn man jetzt mal die ARD-Audiotheken-App nimmt, einfach mal radioeins-Medienmagazin und mal “Münchner Medientage” als Stichwort eingibt, kann man sich das noch mal anhören dieses Interview und kurz zusammengefasst: man arbeitet dort an einem Standard, der so wie ein Multimedia-Container funktioniert, der fürs Internet, aber auch Broadcast möglich ist, wo alles reingepackt wird, was an Audio- und Video- und Bild- und Textinhalten nötig ist und die Geräte werden dann schließlich irgendwann mal erkennen, wenn sie diesen Container bekommen, ich bin ja ein 5.1-Gerät, also ich sende jetzt Raumklang. Und wenn es ein Multimediagerät ist, dann werden alle Informationen eben ausgewertet und wenn es eben nur eine Suchmaschine ist und meinetwegen auch wie die ARD-Mediathek, dann werden eben die Daten erkannt und ausgelesen. Und ich nehme mal an, dass das ist ein Zukunftsjob, den du da hast.

Robert Förster: Ich gehe davon aus und sonst hätte ich mir nicht so ausgewählt, also ja naklar. Audio hat für mich eine riesengroße Zukunft und deswegen haben wir uns hier darauf spezialisiert, mit unserer Transkription anbieten und den verschiedenen anderen Services, die wir noch mit dazu anbieten.

Jörg Wagner: Jetzt wird’s aber wirklich brandgefährlich für Verleger, sage ich mal so ein bisschen diabolisch, weil da ist dann auch im Audio Text drin. Ob das dann möglicherweise den Verlegern gefällt? Aber das ist ja nicht Presse im Audio, das geht ja nicht, das ist Quatsch.

Robert Förster: Wir gehen zu den Verlegern genauso und sagen: wir haben es auch anders herum. Wir haben nicht nur speech to text, sondern auch text to speech. Also sie können genauso auf Audio-Plattformen wie Amazon Alexa oder Google home oder wie auch immer, wie sie alle heißen, sein.

Jörg Wagner: Vielen Dank Robert Förster, wo findet man Dich im Netz? Das war jetzt ein tolles Verkaufsgespräch, aber so war es nicht gemeint. Das war einfach mal der Hinweis, was ist demnächst tatsächlich möglich auf dem Gebiet des Audios – wo findet man Dich aber trotzdem, wenn man weiter vertiefende Informationen haben will?

Robert Förster: multicast-media.com