Investigadores de la UPV/EHU desarrollan herramientas para utilizar la web como corpus en euskera / Imagen: Wikipedia

La web y las tecnologías del lenguaje, al servicio del euskera

.

Los corpus son muestras referenciales del lenguaje escrito, gigantescas recopilaciones de textos y de palabras. Aunque para muchos el propio término sea desconocido, los corpus son fundamentales para las tecnologías del lenguaje: sin corpus, no habría sistemas de traducción automática ni aplicaciones para el reconocimiento de la voz, ni existirían los diccionarios modernos. Varios investigadores de la UPV/EHU utilizan la web como fuente inagotable para crear corpus en euskera. Dicha utilización permite elaborar más fácilmente corpus de gran tamaño que haciéndolo de forma manual, pero deben utilizarse las herramientas adecuadas. El euskera ya dispone, en este momento, de dichas herramientas.

.

UPV/EHUEn la jerga de la lingüística de corpus suele decirse aquello de “more data is better data”, es decir, “más datos significa mejores datos”. Y, en lo que a cantidad se refiere, no hay quien supere a Internet. Cuando comenzó esta investigación, el mayor corpus en euskera contaba con pocas palabras (25 millones). Y es que hasta ahora, los corpus se han creado de forma manual. “En la década de los 90, otras lenguas ya habían superado la barrera de los 100 millones de palabras”, según el investigador Igor Leturia, quien recuerda que “nos marcamos como objetivo superar dicho límite cuando comenzamos a analizar si la web podría ser una fuente de abastecimiento adecuada para crear corpus en euskera”.

Leturia ha utilizado los métodos automáticos que emplean otras lenguas para, posteriormente, elaborar los suyos propios

Las lenguas que superaron hace tiempo el citado límite no recurrieron a métodos manuales para crear gigantescas recopilaciones de palabras, sino a herramientas automáticas y a la “web como corpus”. La principal limitación de los corpus tradicionales es su coste, ya que se necesita mucha mano de obra para recopilar y adaptar los textos (de formatos y fuentes muy diversas) y, posteriormente, extraer de estos recopilaciones de palabras referenciales de una lengua. La web, por el contrario, es inmensa, y contiene textos de cualquier género, dominio o lengua que, además, están disponibles en un formato estándar fácil de manejar: en HTML. Una ventaja añadida es que la web se actualiza permanentemente. “Utilizando métodos automáticos para extraer textos de la web, es mucho más rápido y barato crear corpus variados, actualizados y de gran tamaño”, señala Leturia, que ha llevado a cabo esta investigación en la unidad de Lengua y Tecnología de Elhuyar, bajo la dirección del grupo de investigación IXA de la Facultad de Informática de la UPV/EHU. La investigación tenía por objeto demostrar, por una parte, que la metodología “la web como corpus” sirve para crear, en euskera, recopilaciones de palabras con gran calidad, amplitud y diversidad; por otra, desarrollar las herramientas para lograr dicho objetivo.

El investigador Igor Leturia

El investigador Igor Leturia

“Es muy fácil extraer textos de la web en inglés —afirma Leturia—, pero como la presencia del euskera en la web es menor, no sabíamos si seríamos capaces de elaborar determinados tamaños o tipos de corpus”. Leturia ha utilizado los métodos automáticos que emplean otras lenguas para, posteriormente, elaborar los suyos propios, teniendo en cuenta las peculiaridades del euskera y buscando soluciones adaptadas a estas.

.

Cuatro ámbitos distintos

El trabajo se ha desarrollado en cuatro ámbitos distintos. En el primero, el investigador ha demostrado que se puede consultar directamente la web como si fuera un corpus en euskera, utilizando para ello dos herramientas. Una de ellas sirve para superar el “problema” de la declinación: “La herramienta crea las declinaciones y conjugaciones de la palabra que se quiere buscar, y se envían al buscador, dentro de una orden OR, para conseguir resultados reales en euskera”, explica Leturia. Otra de las herramientas utilizadas es el filtro, imprescindible para que el sistema traduzca solo textos que están en euskera. Fruto del citado trabajo es la herramienta de búsqueda CorpEus.

En el segundo de los ámbitos, el investigador ha creado, a partir de la web, un corpus general (en euskera) de 210 millones de palabras, utilizando el método de extracción automática denominado “crawling”. Puede consultarse dicho corpus en el portal de corpus de la web. Este corpus extraído de la web es mayor que los tradicionales, y ofrece más información sobre las palabras. Según Leturia, “más del 95 % de las palabras que contienen los corpus tradicionales también están en los nuestros, además de otras muchas que no están en aquellos”. Concretamente, su aportación de nuevas palabras a los corpus tradicionales es del 85 %.

El  investigador ha trabajado, entre otros, con corpus de informática, de física de partículas y de turismo

Por otra parte, Leturia ha investigado también si la web sirve, además de para crear corpus genéricos, para elaborar corpus de determinadas  disciplinas, tanto para recopilaciones de textos en euskera como para bilingües. En ambos casos, los corpus de dominio extraídos de la web eran equiparables a los elaborados “a mano”. El citado investigador ha trabajado, entre otros, con corpus de informática, de física de partículas y de turismo.

“Partimos más tarde y con menos recursos que otras lenguas con más hablantes que la nuestra —reflexiona Leturia—, pero también hay que mirarlo desde este otro punto de vista: algunas lenguas de muchos hablantes (el inglés, por ejemplo) son morfológicamente más simples para ser tratadas automáticamente, contienen una gran masa de texto, y aplicando solamente la estadística obtienen muy buenos resultados. El euskera, en cambio, al contar con una masa de texto menor y al ser más complejo para el tratamiento automático, nos ha situado ante problemas más complejos y nos ha obligado a elaborar herramientas que no existen en las lenguas con muchos hablantes. Hemos tenido, por tanto, la oportunidad de hacer aportaciones originales y novedosas al ámbito de las tecnologías del lenguaje”. Según Leturia, las herramientas desarrolladas sirven, además de al euskera, a otras lenguas con necesidades y características similares a aquella.

Share