En el par “pueblo” – “” la palabra en chino es más restrictiva que en español ya que significa únicamente ‘lugar habitado’ / UPF

Más cerca de superar las dificultades de traducción automática del chino mandarín

.

Un componente crucial de los sistemas de traducción automática estadística son los llamados “corpus paralelos” o colecciones de textos y sus traducciones, grandes volúmenes de datos organizados por pares de lenguas. Los sistemas de traducción automática aprenden a traducir las palabras y sus combinaciones a partir de estas colecciones. Cuantos más datos hay, mayor es la probabilidad de que la traducción automática resultante sea la correcta. 

.

Se propone un novedoso sistema para inducir diccionarios de traducción, sin necesidad de corpus paralelo

UPF / Como explican Jingyi Han y Núria Bel, “el problema es que para muchos pares de lenguas no hay suficiente corpus paralelo del que aprender. Estamos hablando de varios millones de palabras y el par de lenguas chino-español es uno de estos casos”. En el trabajo de estas investigadoras del Instituto de Lingüística Aplicada (IULA) del Departamento de Traducción y Ciencias del Lenguaje de la UPF, “Towards Producing Bilingual Lexica from Monolingual Corpora”, se propone un novedoso sistema para inducir diccionarios de traducción, sin necesidad de corpus paralelo, que se puedan incorporar a un sistema de traducción automática estadística. Un trabajo que ha sido presentado en el congreso internacional Language Resources and Evaluation Conference (LREC), celebrado del 23 al 28 de Mayo en Portorož (Eslovenia).

.

Un clasificador con un alto potencial en la producción de léxico bilingüe

Los resultados del trabajo de estas investigadoras demuestran que este método posee un alto potencial para ser utilizado en la producción de léxico bilingüe para aumentar el generado por el sistema de traducción automática estadística,  en aquellos casos en que los pares de lenguas tienen escasa o insuficiente cantidad de corpus paralelos.

El diseño experimental del trabajo se hizo para  español, chino e inglés

La principal contribución de esta investigación es que la inducción se realiza a partir de textos de cada una de las lenguas sin necesidad que sean traducciones unos textos de otros, con lo que se pueden reunir suficientes datos para que, mediante métodos de aprendizaje automático supervisado (solo necesita unos 300 ejemplos de traducciones) y tomando como representación de las palabras los vectores de información distribuida o “Word Embeddings” (Mikolov, 2013),  entrenar un clasificador que es capaz de decidir con un acierto de casi el 90% si un par de palabras cualquiera de las encontradas en los textos de cada lengua es realmente una buena traducción la una de la otra. “Nuestro clasificador es capaz de predecir si un nuevo par de palabras están en una relación de traducción o no”, afirma Bel. El diseño experimental del trabajo se hizo para  español, chino e inglés.

Además, en el artículo,  las autoras dan ejemplos de pares de palabras clasificados correctamente y analizan los posibles motivos de los errores cometidos por el clasificador. Por ejemplo cuando se estudian pares de posibles traducciones según el traductor de Google, pero que fueron desestimados por el clasificador. Véase el par “pueblo” – “” en el que la palabra en chino es más restrictiva que en español ya que significa únicamente ‘lugar habitado’. O también el par “enlace”- “链接“. En este caso la palabra en chino no tendría el significado de “matrimonio” que tiene en castellano.

.

Trabajo de referencia:

Jingyi Han, Núria Bel (2016), “Towards Producing Bilingual Lexica from Monolingual Corpora”, Language Resources and Evaluation Conference, 23 al 28 de Mayo en Portorož (Eslovènia).

.