La tecnología también se comunica en euskera
Euskara. Kultura. Mundura.
La tecnología también se comunica en euskera
La cátedra Eloise Garmendia de la Universidad de Boise ha invitado al informático e investigador Igor Leturia Azkarate para realizar una estancia de investigación. La cátedra Eloise Garmendia Biete, impulsada por Etxepare Euskal Institutua, promueve enseñanza y la investigación de temas relacionados con el euskera y la cultura vasca.
Leturia es doctor en informática y trabaja como desarrollador e investigador de software en Orai y Elhuyar. En estos últimos años ha trabajado en el desarrollo de tecnologías para el euskera. Las dos organizaciones han creado conjuntamente servicios tecnológicos como Elia, Aditu o TTS. En la cátedra, utilizando la inteligencia artificial, ha trabajado con estudiantes de las universidades y miembros de la comunidad vasca en diferentes escuelas y ha ofrecido conferencias sobre la investigación y soluciones tecnológicas inteligentes de alto nivel en el campo de la lengua y la traducción.
Hemos conversado con Leturia sobre su investigación y nos ha contado los detalles de su estancia de investigación.
¿Qué son las tecnologías lingüísticas y del habla?
Las tecnologías lingüísticas y del habla son un área de la Inteligencia Artificial que se ocupa de las cuestiones lingüísticas. También se conoce como NLP o Procesamiento del Lenguaje Natural. Incluye traducción automática, conocimiento del habla, síntesis del habla, clasificación de textos, ayudantes virtuales, resumen de textos, respuesta automática a preguntas, creación de textos... y otras tecnologías como éstas.
¿Por qué son importantes?
Hoy, y cada vez más, estamos rodeados de máquinas cada vez más avanzadas, cada vez usamos más: ordenadores, teléfonos móviles, robots, auxiliares virtuales, electrodomésticos inteligentes... Estas tecnologías permiten interactuar con ellas de la manera más natural para nosotros, es decir, mediante el lenguaje y el habla, en lugar de a través de botones, menús, etc. También pueden facilitar o acelerar los trabajos cotidianos o hacer cosas que de otra manera no podríamos hacer: crear textos, entenderlos, traducirlos, clasificarlos o resumirlos, subtitularlos, duplicarlos... Y también son muy útiles para la accesibilidad.
¿Cúal ha sido la trayectoria de desarrollo de estas tecnologías y de las estrategias de uso?
Las estrategias utilizadas en el desarrollo de estas tecnologías normalmente han determinado o limitado las capacidades de las tecnologías de la época.
Desde el inicio de los ordenadores hasta principios de este siglo se han utilizado métodos basados sobre todo en reglas. Los diccionarios, normas, etc. debían expresarse en listas y a través de lenguajes de programación. Además de la informática, exigía mucho trabajo de lingüista. Pero las tareas que se podían hacer estaban limitadas: se podía hacer el etiquetado, la corrección ortográfica... pero la traducción automática y cosas así más complejas no.
Más tarde vinieron los métodos de aprendizaje automático, que aprenden de grandes conjuntos de datos. Y en los últimos cinco o seis años son técnicas de redes neuronales profundas o de aprendizaje profundo las que se utilizan para cualquier tarea. Estos son un caso particular de estudio profundo, aprenden de grandes conjuntos de datos, pero se aprovechan de redes neuronales profundas, estructuras computacionales que de alguna manera pretenden imitar el funcionamiento del cerebro humano. Estas complejas redes, el desarrollo de ordenadores y un gran aumento de datos para aprender han hecho que tareas tan complejas como la traducción automática, el conocimiento del habla, la creación de textos o la creación del habla también se puedan realizar hoy con muy buena calidad.
¿Que ventajas tiene el euskera, siendo una lengua minoritaria, teniendo la oportunidad de utilizar tecnologías de esta categoría?
El euskera es una lengua de escasos recursos, pero esta característica no es una característica binaria de tipo sí/no. Afortunadamente, debido a la evolución del euskera en los últimos años, las instituciones públicas, los agentes educativos, los medios de comunicación, los agentes culturales... han generado muchos de los datos necesarios para el aprendizaje de las tecnologías lingüísticas y del habla. Así, tenemos un corpus bastante grande de textos digitalizados, también de traducciones, transcripciones de audio... Y gracias a ellos hemos podido desarrollar traducciones automáticas, transcripciones automáticas, creación de habla y otras tecnologías avanzadas de calidad. Sus resultados son evidentes, la sociedad utiliza cada vez más estas herramientas y seguirán siendo un factor importante para garantizar el futuro de la lengua en el futuro.
¿Cuáles son los hitos de la tecnología del lenguaje de Orai y Elhuyar?
En estos últimos 20 años hemos desarrollado importantes recursos, tecnologías y herramientas: corpus, buscadores, el traductor Matxin y el corrector Xuxen que hemos desarrollado y comercializado junto a IXA… pero quizás sean estas tres herramientas las mas importantes que hemos puesto a disposición de la ciudadanía utilizando redes neuronales:
- Elia: un servicio de traducción automática entre 6 idiomas (euskara, español, francés, inglés, catalán y gallego). Puede traducir documentos enteros manteniendo el formato, y también disponemos de API y otras funcionalidades avanzadas para integrarlos en páginas web.
- Aditu: transcribe y subtitula audios y vídeos en euskera, castellano o bilingüe. Cuenta con una interfaz de correción manual que permite también traducir a cualquiera de las 6 lenguas de Elia, un API y también puede hacerlo directamente.
- TTS neuronal: es un servicio de creación de lenguaje neuronal. Se puede utilizar en seis idiomas (euskera, castellano, francés, inglés catalán y gallego), con diferentes voces en cada uno de ellos, y con unas pocas grabaciones se puede crear una voz sintética personalizada para un uso exclusivo. También dispone de APIA para su integración en sitios web.
¿Cuáles son los retos de futuro en este sector?
En los últimos años se ha producido un gran cambio en el mundo de la Inteligencia Artificial, todos hemos escuchado términos como AA creativa o ChatGPT y hemos visto apps que doblan a colaboradores o vídeos que responden a cualquier pregunta. Todas ellas son tecnologías lingüísticas y del habla, están basadas en un nuevo paradigma (grandes modelos de lenguaje). Son redes gigantescas, entrenadas con grandes cantidades de datos y que funcionan en muchos idiomas. Algunas de ellas también están en euskera (aunque no tan bien). Ahora el reto es que, siguiendo ese paradigma, seamos capaces de desarrollar tecnologías propias que hagan esas cosas nuevas, que también vayan en euskera o que vayan mejor, garantizando la soberanía tecnológica y la privacidad de una manera sostenible.
¿Qué experiencia has tenído en la cátedra Eloise Garmendia Bieter?
El ser profesor invitado en la cátedra Eloise Garmendia ha sido una experiencia muy buena. He impartido clases en el departamento de Estudios Vascos, en el departamento de Informática, en la conferencia principal del congreso sobre traducciones, en la charla a la comunidad vasca en el Euskal Etxea… Una estancia de este tipo es un gran reto academicamente y profesionalmente porque requiere aclarar y organizar ideas para poder prepararlos para la divulgación y el sistema educativo.
Por otro lado, me ha dado la oportunidad para conocer de primera mano la comunidad vasca de Boise, y realmente ha sido una experiencia excelente.
¿Qué tipo de respuesta ha recibido tu investigación por parte del alumnado?
Yo creo que ha tenido una buena acogida. Los estudiantes de la universidad y la comunidad vasca han visto que la tecnología habla también euskera y que ellos mismos pueden utilizarlo, ya sea para aprender euskera, para interactuar con las máquinas o para difundir su patrimonio. Ejemplo de ello es que el Museo Vasco de Boise, con la colaboración de Nere Lete, del departamento de Estudios Vascos de la Universidad de Boise, ha aprovechado Aditu para subtitular y traducir una serie de documentales sobre la diáspora vasca.
Por otro lado, los alumnos de las clases impartidas en el departamento de informática trabajan con las tecnologías lingüísticas y del habla, pero siempre con el inglés, lo cual es muy sencillo, ya que para el inglés hay muchos recursos. Y creo que he conseguido hacer ver que no todas las lenguas tienen esa suerte, que muchas lenguas tienen que desenvolverse con muchos menos recursos, y también he expuesto estrategias que se pueden aprovechar en estas situaciones.