Corpus del Español del Siglo XXI

El CORPES XXI constará de 400 millones de formas en 2018

 

El Corpus del Español del Siglo XXI (CORPES XXI) es, al igual que CREA, un corpus de referencia. En lingüística, se llama corpus a un conjunto formado por miles de textos (novelas, obras de teatro, guiones de cine, noticias de prensa, ensayos, transcripciones de noticiarios radiofónicos o televisivos, transcripciones de conversaciones, discursos, etc.) y cientos de millones de formas. Son empleados habitualmente para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. Dado el tamaño que poseen, los corpus tienen que estar en formato electrónico.

.

RAE / Un corpus general (llamado de referencia) tiene como propósito básico el de servir para obtener las características globales que presenta una lengua en un momento determinado de su historia. En el caso del español actual, el corpus debe contener textos de todos los tipos y también de todos los países que constituyen el mundo hispánico.

El objetivo final es reunir, en 2018, un conjunto textual constituido por 400 millones de formas y palabras de la lengua común de casi 500 millones de hispanohablantes

Para ello, los textos que integran el CORPES se seleccionan de acuerdo con una serie de parámetros y son tratados con un sistema de codificación especialmente diseñado para este corpus y para la recuperación de sus datos desde cualquiera de esos parámetros.

Para continuar y desarrollar las líneas seguidas anteriormente, en el congreso celebrado en Medellín en marzo de 2007, las academias de la lengua española acordaron encomendar a la Real Academia Española la construcción del Corpus del Español del Siglo XXI (CORPES XXI), formado por textos escritos y orales procedentes de España, América, Filipinas y Guinea Ecuatorial con una distribución de 25 millones de formas por cada uno de los años comprendidos en el periodo 2001 a 2012.

La versión provisional se presentó en el VI Congreso Internacional de la Lengua Española (Panamá, octubre de 2013) y desde diciembre de 2013 es posible realizar consultas al CORPES XXI a través de una aplicación específica  que permite recuperar los casos contenidos en el corpus de una palabra o expresión. En la primera fase del proyecto, finalizada en diciembre de 2014, se incorporaron textos producidos entre 2001 a 2012. La versión de consulta actualmente disponible recoge algo más de 170 millones de formas.

El 4 de febrero de 2015, la RAE y Banco Santander renovaron el convenio de colaboración que permite el desarrollo de este proyecto. El nuevo acuerdo estará vigente cuatro años más, hasta 2018. El objetivo final es reunir, en 2018, un conjunto textual constituido por 400 millones de formas y palabras de la lengua común de casi 500 millones de hispanohablantes.

 

Dejar comentario

Deja tu comentario
Pon tu nombre aquí

Ver más

  • Responsable: Eva Serra Sánchez.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento:  No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a Nominalia que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.