Xiaomi será mejor conocida por sus teléfonos inteligentes y una miríada de productos IoT, pero esta marca tiene más sustancia que sus dispositivos más famosos. La marca acaba de presentar una tecnología texto para hablar desarrollado por Xiaomi AI Lab que le permite generar una voz única y personalizada para usuarios con problemas de habla.
Esta voz única reemplaza las voces electrónicas más familiares, lo que permite que una persona con problemas del habla se comunique con los demás en un tono natural. La iniciativa nació del proyecto «Own My Voice», liderado por el comité «Technology for Good» de Xiaomi.
¿Por qué Xiaomi lanzó este proyecto?
Xiaomi se preocupa por las personas y se esfuerza por satisfacer sus necesidades a través de la innovación tecnológica. Descubrió el deseo de muchos usuarios con problemas del habla de tener su voz única para la comunicación diaria y creó el equipo del proyecto. “Se dueño de mi voz” para invitar a un usuario con discapacidad del habla como receptor de voz. Zhu Xi, jefe del comité de tecnología de «Tecnología para el bien» de Xiaomi Corporation dijo: “Nos emociona explorar los múltiples valores que nos aporta la innovación tecnológica, como responder a las consultas de los usuarios sobre su identidad y construir su identidad”.
¿Cómo llevó a cabo Xiaomi el proyecto?
Para generar la voz más adecuada y personalizada para el destinatario, el equipo reclutó a más de 200 voluntarios dentro de Xiaomi para donar sus voces. Utilizaron el algoritmo de coincidencia de voz para hacer coincidir las características de las voces dadas por los voluntarios con las de la voz del destinatario. Usando este enfoque, encontraron la voz más adecuada como sonido de referencia de voz base para el destinatario. Teniendo en cuenta la personalización y la privacidad, la voz real elegida se manipuló con complejas modificaciones acústicas para formar un sonido de voz nuevo y original.
Luego usaron la tecnología de texto a voz de estilo espontáneo para entrenar el modelo de IA, logrando gradualmente que esta nueva voz adquiriera un ritmo y una entonación naturales capaces de expresar verdaderamente la emoción y el tono de un ser humano.
El proyecto “Se dueño de mi voz” combina una variedad de los algoritmos más avanzados con la tecnología de voz desarrollada por Xiaomi para garantizar la especificidad, seguridad y alta autenticidad de la voz sintetizada, creando una nueva idea de texto a voz personalizado para usuarios con trastornos del habla.
¿Cuál es el significado del proyecto?
La columna vertebral de este proyecto es un grupo de expertos en tecnología de voz del Xiaomi AI Lab. Desde 2017, han publicado 37 artículos sobre el habla en las actas de las principales conferencias internacionales, como la Conferencia Internacional sobre Acústica, Habla y Procesamiento de Señales (ICASSP). el éxito de “Se dueño de mi voz” se basa principalmente en la tecnología Text-To-Speech de estilo espontáneo desarrollada por ellos.
La tecnología Text-To-Speech de estilo espontáneo hace que la voz sintetizada suene como un ser humano real en su entonación, pausa, velocidad y otras características. Esto reemplaza la sensación monótona y poco natural de la voz electrónica con una voz más natural. Actualmente, esta tecnología se aplica a muchos dispositivos inteligentes equipados con Xiaoai, el asistente de voz con IA de Xiaomi. El proyecto “Se dueño de mi voz” muestra que la tecnología Text-To-Speech de estilo espontáneo también se puede adoptar ampliamente en áreas de accesibilidad y mejorar la experiencia del usuario.
Zhu Xi agregó: “Si notamos y abordamos las necesidades de los grupos minoritarios en una etapa temprana, el proceso de difusión de tecnología se puede acortar significativamente. Esto permite a los usuarios con necesidades especiales acceder a los beneficios de las nuevas tecnologías sin demora. ».
En el futuro, Xiaomi seguirá recibiendo comentarios del destinatario de la voz y seguirá estudiando la viabilidad de este proyecto en un rango más amplio. Xiaomi continuará fortaleciendo la accesibilidad a través de tecnología de punta, esforzándose por satisfacer las diversas necesidades de las personas a través de la innovación tecnológica.
«Explorador apasionado. Aficionado al alcohol. Fanático de Twitter. Webaholic galardonado. Aficionado a la comida. Geek de la cultura pop. Organizador».