AI e speech-to-text - alugha no NAB Show

AI e a indústria cinematográfica, bem como os vídeos online, estão agora muito estreitamente ligados. Mesmo que os grandes já existam, o trabalho em equipe é mais importante do que nunca.

Read this article in: Deutsch, English, Español, Português

Estimated reading time:2minutes

Minha primeira parada no NAB 2019 foi um workshop sobre AI e a indústria cinematográfica. Um panel de discussão curto, mas muito eficiente, que mais uma vez mostrou como a IA será importante para o futuro quando se trata de certas questões-chave na indústria cinematográfica. Além de Dave Cole da IPV Ltd, Steven Soenens da Skyline Communications, Stan Moote da IABM e Joe Addalia - Diretor de Projetos de Tecnologia da Hearst Television - estiveram presentes para dar suas opiniões e responder perguntas.

As declarações feitas pela Addalia foram muito excitantes. Ele tem lidado com o tópico AI para speech-to-text e transcrição automática por um longo tempo. Já vimos isto antes no YouTube. Os resultados são em parte muito úteis, mas também muitas vezes o contrário. Enquanto o Google depende completamente de uma AI de auto-aprendizagem, existem outras estratégias interessantes. Alugha é um bom exemplo. Uma vez que a AI colocou a palavra falada nos segmentos individuais, são as pessoas que fazem o ajuste fino e, assim, alcançam uma taxa de acerto de quase 100% em um tempo enormemente curto. A AI aprende continuamente e é assim otimizada.

Para a Addalia é de extrema importância que não te vagueies numa viagem ao ego e tentes apenas colocar-te aqui. Google e outras empresas em todo o mundo são um excelente exemplo para este comportamento no momento. Todos querem ser os melhores e os primeiros, mas com tantas línguas, dialectos, palavras, criações de palavras e novas línguas em constante evolução, esta será uma tarefa difícil a quase impossível. Ele apela aos decisores para que unam forças para entregar resultados precisos.

Perguntado se ele vê AI como um "job killer" nesta área, ele diz que não ouviu nenhuma reclamação até agora e que o oposto é o caso, as pessoas não têm medo de usá-lo como uma ferramenta útil para transformar rapidamente a palavra falada em texto escrito.

Só posso concordar. Se você considerar que só no YouTube mais de 500 horas de material de vídeo são carregadas a cada minuto, então é quase impossível lidar com isso pela mão humana de qualquer maneira. E se tens em mente o fator "ultra legal" de speech-to-text, que de repente um mecanismo de busca pode entender e pesquisar um texto, então o tópico está bem à frente.

Um dos grandes pontos positivos do NAB Show são, de fato, as workshops, e só posso recomendar a todos da indústria que dêem uma olhada nelas. Raramente existe um conhecimento tão concentrado em tão poucos dias.

Para mim vai direto para a próxima workshop! 

 

Até a próxima!

Bernd Korz

#alugha

#multilingual

#everyoneslanguage

More articles by this producer

Videos by this producer

Replace High-G with Lower-G String for Ukulele test

I often read about the different sound when you replace the high-g-string with a low-g... So :) I thought to give it a try, and what can I say? WOW! So I bought the Low-G String for my Ukulele on Amazon from Aquila and I have to admit... I am EXCITED! Now I have my Tenor Ukulele with the High-G and

iPhone 15 Pro Max Videotest

Short test with my new iPhone 15 Pro Max to see how the camera works. No real settings done. Unboxed, started and then a test video.. So I was (and still) not familiar with the camera and its options. But I have to admit, I like the result!