#NAB2019 - KI und Speech-to-Text

KI und die Filmbranche sowie online Videos sind mittlerweile sehr eng miteinander verknüpft. Auch wenn es die großen schon gibt, ist Teamwork wichtiger denn je.

Read this article in: Deutsch, English, Español, Português

Estimated reading time:2minutes

Meine erste Station auf der NAB 2019 war ein Workshop zum Thema AI und Filmbranche. Eine kurze, aber sehr effiziente Podiumsdiskussion, die einmal mehr gezeigt hat, wie wichtig KI für die Zukunft sein wird, wenn es um bestimmte Kernthemen in der Filmbranche geht. Neben Dave Cole von IPV Ltd waren auch Steven Soenens von Skyline Communications, Stan Moote von IABM und Joe Addalia - Director of Technology  Projects at Hearst Television - da, um Ihre Meinungen dazu abzugeben und Fragen zu beantworten.

Sehr spannend waren dabei die Aussagen von Addalia. Er beschäftigt sich seit längerem mit dem Thema KI für Speech-to-Text und automatische Transcription. Wir kennen das ja schon von YouTube. Die Ergebnisse sind hierbei teilweise wirklich brauchbar, aber auch oft leider das komplette Gegenteil. Während Google dabei komplett auf eine selbstlernende KI setzt, gibt es durchaus noch andere interessante Ansatzpunkte. Alugha ist hier ein gutes Beispiel. Sobald die KI das gesprochene Wort in die einzelnen Segmente gepackt hat, sind es Menschen, die den Feinschliff geben und damit am Ende eine Trefferquote von nahezu 100% in enorm kurzer Zeit erreichen. Dabei lernt die KI immer wieder dazu und wird dadurch optimiert.

Für Addalia ist es von größter Wichtigkeit, dass man hier nicht auf einem Egotrip wandert und nur versucht sich selbst zu platzieren. Auch hier ist Google und auch andere Firmen weltweit ein Paradebeispiel für dieses Verhalten. Jeder will der Beste und der Erste sein, aber bei so vielen Sprachen, Dialekten, Worten, Wortkreationen und ständig sich entwickelnden neuen Sprachen, wird dies ein schwieriges bis nahezu unmögliches Unterfangen. Er appelliert an die Macher, sich zusammen zu schließen um akkurate Ergebnisse abliefern zu können.

Auf die Frage angesprochen, ob er das Thema KI in dem Bereich nicht als Jobkiller sehe, äussert er sich, dass er bis heute keine Beschwerden gehört hat und eher das Gegenteil der Fall sei, die Leute hätten keine Angst davor, sie würden es als nützliches Werkzeug nutzen, um das gesprochene Wort schnell in geschriebenen Text zu transformieren.

Ich kann mich dem nur anschließen. Wenn man bedenkt, dass alleine auf YouTube jede Minute über 500 Stunden an Filmmaterial hochgeladen werden, dann ist das von Menschenhand so oder so kaum mehr zu bewältigen. Und wenn man noch den “ultracool” Faktor für Speech-to-Text vor Augen hat, dass auf einmal auch eine Suchmaschine den Text verstehen und durchsuchen kann, dann ist das Thema ganz weit vorne.

Und wenn ihr selbst mal ein Video multilingual machen und dubben wollt... Schaut euch den alugha dubbr an :)

Einer der großen Pluspunkte der NAB Show sind in der Tat die Workshops, ich kann jedem aus der Branche nur ans Herz legen, sich die anzuschauen. Selten gibt es irgendwo so geballtes Wissen in wenigen Tagen.

 

Bis bald, euer Bernd

#alugha

#multilingual

#everyoneslanguage

CodeNameViewsPercentage
engEnglish81 47.09%
deuDeutsch47 27.33%
spaEspañol22 12.79%
porPortuguês22 12.79%
Total172100%

More articles by this producer

Videos by this producer

iPhone 15 Pro Max Videotest

Short test with my new iPhone 15 Pro Max to see how the camera works. No real settings done. Unboxed, started and then a test video.. So I was (and still) not familiar with the camera and its options. But I have to admit, I like the result!