Cómo la IA mejora los subtítulos y la transcripción

A medida que Covid causó estragos en todo el mundo, la información de salud pública tuvo que estar disponible a gran escala utilizando tecnología. Los líderes mundiales y las organizaciones de salud tuvieron que hacer correr la voz sobre las medidas para evitar la propagación del virus. Accesibilidad la información era la necesidad del momento. Y a medida que el mundo comenzó a utilizar cada vez más la esfera virtual para mantenerse conectado, los subtítulos de vídeo se hicieron imprescindibles.

En el mundo de los subtítulos, la tecnología de reconocimiento de voz aprovecha la inteligencia artificial para escalar el proceso de subtitulado. Cumple dos requisitos de «escala»: ahorra tiempo y reduce costos. Los programas de IA están capacitados para producir transcripciones de voz de alta calidad. En lo que esto se diferencia del esfuerzo humano es que es escalable, mientras que la estenografía y la escritura con voz vienen con dependencias a nivel humano individual. Si bien la transcripción y los subtítulos humanos siguen siendo más precisos que la automatización, el reconocimiento de voz automatizado (o automático), es decir, el ASR, impulsa este proceso a gran escala.

Esta producción de voz a texto es posible gracias a la Inteligencia Artificial (IA). La ASR ha tenido un impacto significativo en estas técnicas de producción. La ASR no solo ha reducido los costos de producción, sino que también ha acelerado el proceso. Este objetivo parecía inalcanzable hace tan solo un par de décadas, pero hoy en día se ha generalizado y se utiliza ampliamente en la industria de los medios de comunicación y el entretenimiento.

¿Qué es ASR?

Cada vez que un ingeniero tiene que crear un programa, su primer paso es aplicar ingeniería inversa al proceso para comprenderlo a nivel de componente. La tecnología ASR tradicional consta de tres componentes. En primer lugar, existe un modelo acústico que predice los fonemas (la unidad de voz más pequeña), y el programa se entrena con entradas de audio cortas para ayudarlo a reconocer estos fonemas. En segundo lugar, hay una entrada de léxico o vocabulario que el algoritmo analiza junto con el componente acústico. Y el tercero es el componente lingüístico general, que los une para encadenar las palabras en patrones de voz reconocibles por las máquinas.

En pocas palabras: las máquinas están entrenadas para reconocer patrones en el habla y el lenguaje y luego analizar esa información para llegar a una salida textual lo más cercana posible a la producción humana.

Limitaciones del ASR

Sin embargo, el ASR no es una tecnología perfecta. Depende de muchos factores, como la calidad del audio, los acentos de los altavoces, la superposición de la voz, etc. Otro ejemplo de la producción de texto a partir de una voz que, lamentablemente, tiene margen de error es la repetición y la redundancia de la voz. Las máquinas no comprenden plenamente los rellenadores de voz que han evolucionado junto con la cultura lingüística y como parte del proceso de pensamiento humano.

Los errores más comunes de ASR se clasifican en uno de los siguientes grupos:

Puntuación
Gramática
Errores en el reconocimiento de los altavoces, especialmente en el caso de varios altavoces
Comienzos en falso y rellenos de voz: todos esos «ah», «um» y «mm-hmms» que utilizamos en una conversación.
Homónimos
Voz y ruido de fondo superpuestos
Mala calidad de audio

El ASR también se enfrenta a desafíos en los casos en que un orador se corrige a sí mismo a mitad de la oración. Estas son brechas que un subtitulador o transcriptor humano reconocerá y utilice el juicio al interpretar el texto en un formato comprensible que refleje las intenciones del orador. La tecnología de reconocimiento de voz aún tiene un largo camino por recorrer para discernir estos patrones de habla y comprender el contexto.

Ventajas del ASR

Dicho esto, la ASR también es una de las tecnologías que pueden simplificar los subtítulos y la transcripción cuando hay que tener en cuenta los costos y el tiempo. Una de las soluciones más eficaces al problema de la inexactitud es añadir una capa de edición entre el reconocimiento automático de voz y la posterior transcripción. Pero tenga la seguridad de que, como ocurre con la mayoría de las cosas en el ámbito tecnológico, la mejora en las tasas de precisión es algo que puede esperar de las nuevas versiones de la tecnología.

Independientemente de estas limitaciones, la ASR desempeña un papel importante en la subtitulación, especialmente en los vídeos en directo que no pueden permitirse el lujo de disponer de un tiempo de producción suficiente. Los proveedores de subtítulos trabajan con subtituladores humanos para eventos en directo y también reconocer el papel que ASR puede desempeñar en las instancias de transmisión de vídeo en directo.

Otro papel que desempeña la IA en la subtitulación y la transcripción es Traducción automática (MT), que es la necesidad del momento en el mundo de la localización. La ironía aquí es que la localización ha allanado el camino para la globalización y viceversa. La traducción de subtítulos, con tecnología de inteligencia artificial, abre el mundo de los subtítulos a personas que no hablan inglés ni de forma nativa para que puedan comprender el contenido de una manera más íntima y sencilla. Durante la pandemia, este servicio adicional de subtítulos para eventos en vivo y en línea permitió a participantes de todo el mundo interactuar con el contenido. Gracias a la IA, el consumo de contenido se hizo más accesible e inclusivo.

Cómo SyncWords aprovecha la IA

Si bien la IA puede generar la escala y la rentabilidad necesarias para generar subtítulos, el enfoque único de SyncWords aprovecha las aportaciones humanas en las fases críticas del proyecto para aumentar la precisión, que es el factor clave para impulsar la satisfacción del cliente. En el caso de los subtítulos pregrabados o bajo demanda, la tecnología de inteligencia artificial patentada de SyncWords sincroniza los medios con gran precisión con la transcripción y, al utilizar transcripciones generadas por profesionales capacitados, SyncWords produce subtítulos redactados y cronometrados con precisión. SyncWords también ofrece subtítulos a partir de transcripciones de ASR para los clientes que desean que los subtítulos se generen de forma rápida y asequible, y que están de acuerdo con el uso de texto generado por ASR.

En el caso de los subtítulos en directo, SyncWords ofrece resultados humanos y ASR; sin embargo, en el caso de las traducciones en directo, animamos a los clientes a utilizar los subtítulos humanos como fuente y a impulsar las traducciones en directo a más de 100 idiomas mediante la traducción mediante IA.

En palabras de Ashish Shah, cofundador de SyncWords: «Las tecnologías principales de SyncWords se basan en su tecnología e infraestructura patentadas de aprendizaje automático. El uso de la inteligencia artificial en combinación con la automatización, las herramientas y los servicios humanos ha reducido el tiempo necesario para generar subtítulos y subtítulos de unos pocos días a solo unos minutos. Este enfoque híbrido ha ayudado enormemente a nuestros clientes y ha aumentado la producción y la precisión de los subtítulos».

Finalizando

La inteligencia artificial ha permitido programar máquinas con múltiples reglas y, al mismo tiempo, crear algoritmos para tecnologías como ASR y MT. En las últimas dos décadas, hemos visto surgir muchas plataformas y servicios de inteligencia artificial, como Siri, Alexa, Cortana, los chatbots y la conversión de voz a texto de Google. Agregue a esto los resultados de búsqueda personalizados y las respuestas solicitadas por correo electrónico (¡a veces espeluznantes!) para simplificar el mundo de la comunicación empresarial. Para obtener los mejores resultados al subtitular, los eventos en directo o los vídeos a la carta, lo mejor es combinar la inteligencia humana y la inteligencia artificial para aprovechar la precisión de un resultado para alimentar otro y producir los mejores resultados.

Lecturas relacionadas en el blog de SyncWords

‍

Cómo la IA mejora los subtítulos y la transcripción

Haga que sus eventos o medios virtuales sean accesibles y multilingües

Simulive: Combinación del evento offline con las funciones online