Microsoft ha logrado un avance significativo en el campo de la inteligencia artificial con el desarrollo de VALL-E 2, un modelo de inteligencia artificial capaz de imitar cualquier voz humana a partir de una grabación de solo tres segundos. Lo más sorprendente de esta Inteligencia Artificial Generativa (IAG) es su capacidad no solo para reproducir la voz, sino también para capturar y emular el tono emocional del usuario.
Avances en la Tecnología de Síntesis de Voz: VALL-E 2
Sin embargo, Microsoft decidió no detenerse en los buenos resultados obtenidos con VALL-E. La empresa ha estado desarrollando su último avance en modelos de lenguaje de códecs neuronales: VALL-E 2. Este nuevo modelo presenta mejoras significativas que elevan su rendimiento en comparación con su predecesor, logrando la «paridad humana por primera vez».
«VALL-E 2 logra por primera vez el rendimiento TTS de disparo cero de paridad humana. En este contexto, la paridad humana indica que las métricas de robustez, naturalidad y similitud de VALL-E 2 superan a las de las muestras de realidad fundamental, lo que significa que VALL-E 2 puede generar un habla precisa y natural en la voz exacta del hablante original, comparable al rendimiento humano», se puede leer en la web de Microsoft.
Innovaciones y Comparativa de VALL-E 2
Las innovaciones de VALL-E 2 han permitido que las voces de figuras icónicas como Judy Garland y James Dean cobren vida nuevamente gracias a la IA. La perfección en la síntesis de voz ha generado tanto admiración como temor. A pesar de los impresionantes avances y capacidades demostradas por VALL-E 2, los creadores han decidido mantenerla como «puramente un proyecto de investigación». Actualmente, no permiten que el público tenga acceso a esta herramienta debido a los posibles riesgos asociados con su uso indebido.
Riesgos Potenciales y Seguridad
En su página web, Microsoft advirtió que «puede conllevar riesgos potenciales en el uso indebido del modelo, como falsificar la identificación de voz o hacerse pasar por un hablante específico». La empresa recalcó que «no tenemos planes de incorporar VALL-E 2 en un producto o ampliar el acceso al público».
En una entrevista para RPP, Roger Menéndez, especialista en ciberseguridad, advirtió sobre el peligro del uso de IA para crear audios que imitan voces perfectamente.
Técnica y Manipulación por Ciberdelincuentes
«Estas tecnologías permiten no solo clonar la voz, sino también editar videos de manera convincente, creando así montajes en los cuales pareciera que estas figuras públicas están promoviendo productos o solicitando acciones específicas, como hacer clic en enlaces maliciosos», mencionó Menéndez.
La técnica empleada por los ciberdelincuentes consiste, en primer lugar, en crear audios falsos utilizando inteligencia artificial. Luego, editan videos utilizando imágenes previamente grabadas y, finalmente, los combinan para generar contenido engañoso y polémico. Esta manipulación tiene como objetivo incitar a las personas a realizar acciones como clics en sitios fraudulentos, descargas de software malicioso o transferencias de dinero.

Cabe mencionar que cualquier persona, sin importar si es una figura pública o no, puede ser víctima de este tipo de estafas. Menéndez advierte que los delincuentes pueden obtener fragmentos de voz de las redes sociales y utilizarlos para crear audios falsos que, por ejemplo, soliciten dinero a familiares o amigos.
Fuente:
rpp.pe
También te puede interesar:
Coronel de la policía: segundo sentenciado en caso Metástasis