Tecnología

aiOla lanza modelo de reconocimiento de voz ‘multi-head’ ultrarrápido, superando a OpenAI Whisper

Autor:

Alex Valverde

Actualizada:

agosto 4, 2024
10:49 am

Hoy, la startup israelí de IA aiOla anunció el lanzamiento de un nuevo modelo de reconocimiento de voz de código abierto que es un 50% más rápido que el famoso Whisper de OpenAI.

Contents

¿Qué hace único a aiOla Whisper-Medusa?aiOla Whisper-Medusa vs OpenAI Whisper ¿Cómo se entrenó el modelo de reconocimiento de voz?

- Anuncio -

Oficialmente denominado Whisper-Medusa, el modelo se basa en Whisper pero utiliza una novedosa arquitectura de «atención multi-cabezal» que predice muchos más tokens a la vez que la oferta de OpenAI. Su código y pesos se han publicado en Hugging Face bajo una licencia MIT que permite su uso tanto para investigación como para uso comercial.

«Al liberar nuestra solución como código abierto, fomentamos la innovación y la colaboración dentro de la comunidad, lo que puede llevar a mejoras aún mayores en velocidad y refinamiento a medida que los desarrolladores e investigadores contribuyen y construyen sobre nuestro trabajo», dijo Gill Hetz, vicepresidente de investigación de aiOla, a VentureBeat.

Este avance podría allanar el camino para sistemas de IA compuestos que puedan comprender y responder a lo que los usuarios preguntan en casi tiempo real.

- Anuncio -

¿Qué hace único a aiOla Whisper-Medusa?

Incluso en la era de los modelos fundacionales que pueden producir contenido diverso, el reconocimiento avanzado de voz sigue siendo altamente relevante. La tecnología no solo impulsa funciones clave en sectores como la salud y las finanzas – ayudando con tareas como la transcripción – sino que también potencia sistemas de IA multimodales muy capaces. El año pasado, el líder de la categoría, OpenAI, se embarcó en este viaje aprovechando su propio modelo Whisper, que convertía el audio del usuario en texto, permitiendo que un LLM procesara la consulta y proporcionara la respuesta, que se convertía nuevamente en voz.

Debido a su capacidad para procesar habla compleja con diferentes idiomas y acentos en casi tiempo real, Whisper se ha convertido en el estándar de oro en reconocimiento de voz, con más de 5 millones de descargas cada mes y potenciando decenas de miles de aplicaciones.

Pero, ¿qué pasaría si un modelo pudiera reconocer y transcribir el habla incluso más rápido que Whisper? Bueno, eso es lo que aiOla afirma haber logrado con la nueva oferta Whisper-Medusa, allanando el camino para conversiones de voz a texto más fluidas.

Para desarrollar Whisper-Medusa, la empresa modificó la arquitectura de Whisper para añadir un mecanismo de atención multi-cabezal, conocido por permitir que un modelo atienda conjuntamente a información de diferentes subespacios de representación en diferentes posiciones utilizando múltiples «cabezas de atención» en paralelo. El cambio en la arquitectura permitió que el modelo predijera diez tokens en cada paso en lugar del estándar de un token a la vez, lo que resultó en un aumento del 50% en la velocidad de predicción del habla y el tiempo de generación.

aiOla Whisper-Medusa vs OpenAI Whisper

Más importante aún, dado que la columna vertebral de Whisper-Medusa se construye sobre Whisper, el aumento de la velocidad no se produce a expensas del rendimiento. La nueva oferta transcribe texto con el mismo nivel de precisión que el Whisper original. Hetz señaló que son los primeros en la industria en aplicar con éxito el enfoque a un modelo de ASR y abrirlo al público para más investigación y desarrollo.

«Mejorar la velocidad y la latencia de los LLM es mucho más fácil que con los sistemas de reconocimiento automático de voz. Las arquitecturas de codificador y decodificador presentan desafíos únicos debido a la complejidad de procesar señales de audio continuas y manejar el ruido o los acentos. Abordamos estos desafíos empleando nuestro novedoso enfoque de atención multi-cabezal, que resultó en un modelo con casi el doble de velocidad de predicción manteniendo los altos niveles de precisión de Whisper», dijo.

¿Cómo se entrenó el modelo de reconocimiento de voz?

Al entrenar Whisper-Medusa, aiOla empleó un enfoque de aprendizaje automático llamado supervisión débil. Como parte de esto, congeló los componentes principales de Whisper y utilizó transcripciones de audio generadas por el modelo como etiquetas para entrenar módulos adicionales de predicción de tokens.

Hetz dijo a VentureBeat que comenzaron con un modelo de 10 cabezas, pero pronto se expandirán a una versión más grande de 20 cabezas capaz de predecir 20 tokens a la vez, lo que llevará a un reconocimiento y transcripción más rápidos sin pérdida de precisión.

«Elegimos entrenar nuestro modelo para predecir 10 tokens en cada paso, logrando una aceleración sustancial sin perder precisión, pero el mismo enfoque puede usarse para predecir cualquier número arbitrario de tokens en cada paso. Dado que el decodificador del modelo Whisper procesa todo el audio del habla a la vez, en lugar de segmento por segmento, nuestro método reduce la necesidad de múltiples pasos a través de los datos y acelera las cosas de manera eficiente», explicó el vicepresidente de investigación.

Hetz no dio muchos detalles cuando se le preguntó si alguna empresa tiene acceso temprano a Whisper-Medusa. Sin embargo, señaló que han probado el nuevo modelo en casos de uso de datos empresariales reales para asegurar que funcione con precisión en escenarios del mundo real. Eventualmente, cree que la mejora en las velocidades de reconocimiento y transcripción permitirá tiempos de respuesta más rápidos en aplicaciones de voz y allanará el camino para proporcionar respuestas en tiempo real. Imagínate a Alexa reconociendo tu comando y devolviendo la respuesta esperada en cuestión de segundos.

Reconocimiento rápido de voz: aiOla presenta Whisper-Medusa, un modelo más veloz y preciso que OpenAI Whisper.

«La industria se beneficiará enormemente de cualquier solución que implique capacidades de conversión de voz a texto en tiempo real, como las aplicaciones de habla conversacional. Las personas y las empresas pueden mejorar su productividad, reducir costos operativos y entregar contenido más rápidamente», añadió Hetz.

TAMBIÉN TE PUEDE INTERESAR: Tecnología de vanguardia: La IA, el nuevo aliado de los Bomberos de Quito