Saltar al contenido

Cómo es el software argentino realizado con IA que permite que personas que perdieron el habla recuperen su voz

Destinado a personas con afecciones que afectan la comunicación verbal, esta tecnología con “tonada” argentina estará disponible de manera abierta. Infobae dialogó con los científicos argentinos que lideraron el proyecto.

ela-como-es-el-software-argentino-realizado-con-ia-que-permite-que-personas-que-perdieron-el-habla-recuperen-su-voz-patoligias
Patologías como traumatismo Cráneo Encefálico (TEC), Esclerosis Lateral Amiotrófica (ELA), Accidentes Cerebro Vasculares (ACV), tumores laríngeos, Parkinson, Esclerosis Múltiple y otras que afectan el aparato orofonador son las causantes de la pérdida de la voz de las personas / (Getty Images)

 

La voz, sin lugar a dudas, permite diferenciar a un humano de otro. Su tono, timbre, cadencia y sus expresiones, entre otras cosas, no solo hacen a las personas, sino también a los pueblos. Es por eso que al escuchar hablar a alguien se puede conocer, en muchos casos, de dónde proviene.

Un conjunto de patologías pueden generar que las personas pierdan su voz, además de otras funciones. Provocando que esta identidad sonora quede en el olvido. Sobre este punto fue que un grupo de científicos argentinos decidió intervenir.

Realizaron un software con IA que no solo recupera la voz característica de cada persona, recurriendo a archivos antiguos, sino que, además, tiene “tonada” argentina. En esta primera etapa, el ex legislador y actual Director Nacional de Estrategias Inclusivas, Accesibles y de Desarrollo Sostenible del Transporte del Ministerio de Transporte, Jorge Rivas, fue el protagonista. ¿El objetivo? Que volviera a “sonar” como antes del asalto que le arrebató su identidad sonora. Un primer paso que, además, ya fue compartido con el ex senador Esteban Bullrich.

ela-como-es-el-software-argentino-realizado-con-ia-que-permite-que-personas-que-perdieron-el-habla-recuperen-su-voz-AI
“Buscamos que las virtudes de la aplicación de la tecnología de distintos campos, como son la fabricación digital, IoT, e IA, entre otros, lleguen a la sociedad”, dijo Páez / (foto: Unocero)

Darío Páez, de Infiniem Labs del Laboratorio de Mecatrónica de la Facultad de Ingeniería de Ejército, y Andrea Cortizo, licenciada en Análisis de Sistemas y Fonoaudiología, y docente de Ingeniería en Sistemas de Información de la Universidad Tecnológica Nacional (UTN) Regional La Plata, son los líderes de este grupo e Infobae dialogó con ellos.

“El proyecto se comenzó a trabajar con Jorge Rivas en 2019, la pandemia desvió los objetivos y en 2022 retomamos, presentándonos al desafío planteado en el programa ImpaCT.AR, desafío 148: ‘Mi identidad vocal’”, afirmó Páez.

En ese sentido, el científico explicó que su proyecto fue como respuesta a la demanda del “desarrollo de un software de voz sintética con la utilización del registro de voz del usuario, para mejorar las condiciones de accesibilidad universal y de calidad de vida, tanto en el desempeño de sus funciones sociales, como en su vida privada, de personas con afecciones en el habla”.

“Es todo el proceso que estamos transitando. Por un lado, Jorge nos llamó y planteó la necesidad previo a la pandemia y, luego, se plantea el desafío en el programa ImpaCTAR, al cual dimos respuesta desde la UTN-Facultad Regional La Plata,Centro UTN CODAPLI, (Sistemas Aplicados a Neurotecnologías)”, recordó Cortizo.

Luego, según la experta, “conformamos el equipo final con Sistemas de Información y con el laboratorio Infiniem.labs, que lo componen ingenieros e ingenieras de sonido e ingenieros electrónicos. En este momento estamos en la mitad del proyecto”.

Durante la presentación de esta primera etapa, los científicos explicaron que el proyecto está dirigido a un importante porcentaje de la población argentina que sufre diferentes patologías que tienen como resultado la pérdida de la voz y no acceden a ningún desarrollo tecnológico para satisfacer esa necesidad.
“Si las cuerdas vocales se hinchan, se inflaman, se desarrollan tumores en estas o no pueden moverse como deberían, no pueden funcionar correctamente. Cualquiera de estas situaciones puede provocar un trastorno de la voz”, detallaron desde Mayo Clinic / Getty

“Si las cuerdas vocales se hinchan, se inflaman, se desarrollan tumores en estas o no pueden moverse como deberían, no pueden funcionar correctamente. Cualquiera de estas situaciones puede provocar un trastorno de la voz”, detallaron desde Mayo Clinic / Getty

Entre las patologías que enumeraron se encuentran: Traumatismo Cráneo Encefálico (TEC), Esclerosis Lateral Amiotrófica (ELA), Accidentes Cerebro Vasculares (ACV), tumores laríngeos, Parkinson, Esclerosis Múltiple y otras patologías que afectan el aparato orofonador.

“La principal barrera con la que nos encontramos fue la dificultad para hallar una base de datos variada, extensa y de licencia abierta, que contenga audios con el acento que estábamos buscando”, explicó Páez. Es que, a diferencia de otros programas de características similares, cuenta con un acento argentino.

En ese sentido, durante la presentación, los expertos señalaron que “los softwares existentes en el país, en la actualidad, trabajan con una voz sintética que no representa la identidad vocal de quien la utiliza y es de gran importancia para quien esté perdiendo o haya perdido su capacidad del habla, poder hacerlo nuevamente con el mismo timbre y características de su particular forma de hablar, generando así, un fuerte impacto psicosocial en las personas que lo utilicen, de sus familias, grupos vinculantes y de la sociedad en general”.

“La base de datos utilizada en la implementación en la cual nos basamos contaba con audios de cientos de personas, mientras que la base que utilizamos nosotros cuenta con aproximadamente 40″, explicó Páez al advertir uno de los problemas que enfrentaron. Y completó: “De todas maneras, los algoritmos de IA nos permiten tomar un modelo entrenado previamente con otros datos y realizarle un ajuste con los datos de interés. Es por eso, que pudimos obtener muy buenos resultados a pesar de contar con ‘pocos’ datos”.

Este software permitirá que aquellos que se quedaron sin habla puedan expresarse a partir de una voz sintética con innovación tecnológica aplicada que les permitirá comunicarse con su voz natural. “Se trata de un desarrollo que aportará calidad de vida a quienes tengan esta necesidad y como insumo principal se necesita el registro de la voz natural del beneficiario directo”, indicaron.

“Es necesario trabajar con las muestras de sonidos previo a que ingresen al sistema de IA y debemos hacerlo con laboriosidad y meticulosidad para lograr que lo que se denomina Dataset argentino rioplatense: léxico y prosodia. Esa es la primera aproximación. Luego, por ejemplo, con las muestras de voz de Jorge, previas al asalto, deberá hacerse un trabajo igual de meticuloso en el tratamiento”, señaló Cortizo.

En esta primera etapa, que fue presentada hace escasos días atrás, el desarrollo contempla la creación de tres voces sintéticas con entonación y modismos en la forma de hablar y expresarse que tiene una voz argentina.

“El acento rioplatense que logramos en la voz generada, más que un punto a favor, es una característica muy importante y el primer objetivo al cual deseábamos llegar”, recordó Páez. Y agregó: “Justamente si hablamos de identidad, es primordial que la voz sintética represente nuestras formas de hablar y pronunciar”.

En tanto, Cortizo agregó: “Hay sistemas similares en otras lenguas, licenciados, es decir pagos. En Argentina no contamos con ese Data Set, por eso la originalidad y la posibilidad de personalización. Estamos en la mitad del proyecto, faltan aún unos meses más de trabajo. Luego se verá como se vehiculiza el producto final para que llegue a los argentinos y argentinas que lo necesiten”.

Al tiempo que recordó el momento en que se entregó este primer paso al ex legislador y destacó: “Fue impactante para nosotros. Emocionante”. “Habrá que escuchar a Jorge como se siente con esa voz lograda. Luego comenzará otro proceso que es el de mejorar la interfaz actual y continuar mejorando lo hecho para dar respuesta a las necesidades del usuario, que en este caso fue Jorge”.

Tal y como adelantó Cortizo, aún resta la mitad del proyecto que ya está en desarrollo. Un nuevo paso que, bien podría describirse, como desafiante. Quieren que llegue a aquellas personas que buscan recuperar su voz, para lo cual deben realizar un registro de la voz natural del beneficiario directo en el software desarrollado.

“Desde la UTN-Facultad Regional La Plata, Centro UTN CODAPLI – Sistemas Aplicados a Neurotecnologías y junto a la Facultad de Ingeniería del Ejército (FIE -UNDEF), Laboratorio de Mecatrónica ‘Infiniem Labs’ se realizó una propuesta de solución ante este desafío”, dijo Páez al adelantar que esta segunda etapa ya está en marcha.

Y agregó: “Infiniem Labs es un laboratorio multidisciplinario donde conviven alumnos de los primeros años de ingeniería con profesionales formados con varios años de experiencia, con el objetivo de llevar adelante proyectos tecnológicos de impacto social”. Es por eso que este proyecto, que cuenta con financiamiento del estado y del sector privado, busca que llegue a la sociedad las virtudes de la aplicación de la tecnología de distintos campos, como son la fabricación digital, IoT, e IA, entre otros.

“En la próxima etapa, el desafío va a estar puesto en cómo se va a llevar a cabo la integración del software para que el beneficiario pueda utilizarlo con la mayor accesibilidad posible. En esta etapa, es crucial la posibilidad de trabajar en conjunto entre desarrolladores y el equipo que acompaña a Jorge Rivas para lograr un producto final que se adapte a sus necesidades. Es importante el aprendizaje que podamos obtener de esta integración, ya que nos va a proporcionar una base para poder acercar este software a todos los que lo necesiten”, concluyó Páez.

Vale destacar que la presentación de esta primera etapa contó con la participación del Ministro de Ciencia, Tecnología e Innovación, Daniel Filmus, y el Director Nacional de Estrategias Inclusivas, Accesibles y de Desarrollo Sostenible del Transporte del Ministerio de Transporte, Jorge Rivas, quienes encabezaron la presentación de los avances del Proyecto de desarrollo de software de voz sintética en el marco del Programa “ImpaCT.Ar Ciencia y Tecnología”, en el Centro Cultural de la Ciencia (C3).

En el evento, Filmus adelantó que le envió “el proyecto a Esteban Bullrich, con quien estamos desarrollando varios proyectos de inclusión e investigación a través de su fundación. Quedamos en seguir trabajando juntos en este tema porque hay un campo de necesidades muy importante”. Al tiempo que ponderó el impacto de estos proyectos y afirmó: “Son importantes porque están dirigidos a resolver necesidades concretas”.

Fuente: www.infobae.com/salud

Deja un comentario