La inteligencia artificial y el reconocimiento de voz: alugha en el NAB Show

La inteligencia artificial (IA) y la industria cinematográfica, así como los vídeos en línea, están estrechamente relacionados. Aunque los grandes ya existen, el trabajo en equipo es más importante que nunca.

Read this article in: Deutsch, English, Español, Português

Estimated reading time:2minutes

Mi primera parada en el NAB Show 2019 fue en un taller sobre la IA y la industria cinematográfica. Un panel de discusión corto pero muy eficiente que, una vez más, mostró la importancia que la IA tendrá en el futuro en temas clave para la industria cinematográfica. Además, Dave Cole de IPV Ltd, Steven Soenens de Skyline Communications, Stan Moote de IABM y Joe Addalia (Director de Proyectos de Tecnología de Hearst Television) estuvieron allí para dar su opinión y responder preguntas.

Las declaraciones de Addalia fueron muy emocionantes. Hace mucho tiempo que se ocupa de la IA para el reconocimiento de voz y la transcripción automática. Ya lo hemos visto antes en YouTube. A veces los resultados son muy útiles, pero a menudo sucede todo lo contrario. Mientras que Google confía completamente en una IA autodidacta, existen otros enfoques interesantes. Alugha es un buen ejemplo. Cuando la IA divide el discurso oral en segmentos individuales, los ajustes se realizan por personas, con lo que se logra una tasa de éxito de casi el 100 % en un tiempo muy corto. Como la IA aprende continuamente, se optimiza.

Para Addalia es de suma importancia que no seas egoísta y que tan solo pruebes de salir al mercado. Actualmente, Google y otras compañías internacionales son un buen ejemplo de este comportamiento. Todo el mundo quiere ser el primero y el mejor, pero con tantos idiomas, dialectos, palabras, neologismos y nuevos idiomas en constante evolución, esta será una tarea difícil, si no imposible. Hace un llamamiento a los fabricantes para que unan sus fuerzas a fin de obtener resultados precisos.

Cuando se le pregunta si considera que la IA es un asesino laboral en este ámbito, dice que hasta ahora no ha escuchado ninguna queja y que lo contrario es cierto: la gente no tiene miedo a utilizarla como herramienta útil para transformar el discurso oral a texto escrito.

No puedo estar más de acuerdo. Si se tiene en cuenta que cada minuto se suben más de 500 horas de vídeo a YouTube, es casi imposible gestionarlo manualmente. Y si se tiene en cuenta el factor «super guay» del reconocimiento de voz, que de repente un motor de búsqueda entiende y busca un texto, el tema pasa a ser de gran importancia.

Uno de los puntos a favor del NAB Show son los talleres. Solo puedo recomendar a toda la industria que les eche un vistazo. Rara vez hay tanto conocimiento concentrado en tan pocos días.

¡Me voy directo al próximo taller! Para más información, ¡síguenos!

 

Bernd Korz

#alugha

#multilingual

#everyoneslanguage

More articles by this producer

Videos by this producer

Replace High-G with Lower-G String for Ukulele test

I often read about the different sound when you replace the high-g-string with a low-g... So :) I thought to give it a try, and what can I say? WOW! So I bought the Low-G String for my Ukulele on Amazon from Aquila and I have to admit... I am EXCITED! Now I have my Tenor Ukulele with the High-G and

iPhone 15 Pro Max Videotest

Short test with my new iPhone 15 Pro Max to see how the camera works. No real settings done. Unboxed, started and then a test video.. So I was (and still) not familiar with the camera and its options. But I have to admit, I like the result!