13 Nov 2012 | TECHNOLOGYREVIEW.COM
U
n vídeo grabado por miembros del público ha estado circulando por medios sociales chinos desde la demostración. Rashid publicó en una entrada de blog la presentación que hizo ante un público de habla inglesa el pasado viernes, incluyendo un vídeo.
A principios de este año, Microsoft probó por primera vez unatecnología capaz de modificar la voz sintetizada para que coincidiera con la voz de una persona. Sin embargo, este sistema solo era capaz de convertir en oral el texto escrito. El software requiere alrededor de una hora de entrenamiento para ser capaz de sintetizar el habla a partir de la voz de una persona. Para ello, usa como base una plantilla modelo de conversión de texto a voz y la ajusta para hacer que genere ciertos sonidos de la misma manera en que lo hace el hablante.
AT&T ya ha hecho demostraciones con anterioridad de un sistema de traducción simultánea español-inglés y se sabe que Google ha construido sus propios servicios experimentales de traducción en directo. Sin embargo, los prototipos desarrollados por estas empresas no tienen la capacidad de generar un habla sintetizada que coincida con el sonido de la voz de una persona.
El sistema de Microsoft es una demostración de la más reciente tecnología de reconocimiento de voz de la empresa, basada en un software de aprendizaje inspirado en el modo de funcionamiento de las redes neuronales. En una entrada de blog sobre el sistema de demostración, Rashid señala que el uso de esta tecnología ha permitido dar el salto más significativo de las últimas décadas en cuanto a la precisión de reconocimiento. "En vez de que una de cada cuatro o cinco palabras sea incorrecta, la tasa de error ahora es de una palabra de cada siete u ocho", escribió.
Microsoft no es la única compañía que ha recurrido a las redes neuronales para mejorar el reconocimiento de voz. Google recientemente comenzó a utilizar su propia tecnología basada en redes neuronales en sus aplicaciones y servicios de reconocimiento de voz. La adopción de este enfoque ha conseguido entre un 20 y un 25 por ciento de mejora en las tasas de error por palabra, según afirman los ingenieros de Google.
Rashid señaló por correo electrónico que los investigadores de Microsoft Research Asia, en Beijing (China), y él todavía no han utilizado el sistema para mantener una conversación con alguien fuera de la empresa, pero la demostración pública ha suscitado un gran interés. "He observado una mezcla de emoción, asombro y optimismo cuando hablamos de lo que esta tecnología podría traernos en el futuro", indica.
Rashid asegura que el sistema está lejos de ser perfecto, pero señala que es lo suficiente bueno como para permitir la comunicación en situaciones que de otro modo serían imposibles. Los ingenieros dedicados a trabajar en el enfoque basado en redes neuronales de Microsoft y Google son optimistas y creen que la técnica dará mucho más de sí, ya que se encuentra en su etapa inicial de implementación.
"Todavía no conocemos los límites de precisión de esta tecnología, realmente es demasiado nueva", afirma Rashid. "A medida que seguimos 'entrenando' al sistema con más datos da la impresión de que mejora cada vez más".
En este vídeo puede verse una demostración del software.
No hay comentarios:
Publicar un comentario