¿Quieres formarte como codificador para el CORPEN? El CIESE-Fundación Comillas trabaja desde hace ya varios meses en un proyecto de investigación centrado en la creación de un corpus de español de los negocios que busca convertirse en una herramienta para cubrir las necesidades comunicativas que surgen diariamente en la didáctica del Español de los Negocios, así como en la propuesta de soluciones empresariales en el ámbito del español de los negocios. (+ más información sobre este proyecto).

Para el desarrollo de este proyecto, más conocido como CORPEN, necesitan la colaboración de los alumnos del CIESE. Por ese motivo, próximamente pondrán en marcha un curso de formación en codificación. El curso, especialmente creado para nuestros alumnos, cuenta con todo lo necesario para introducirse en el mundo de la codificación. ¡Te contamos en qué consiste!

¿Qué es un corpus?

Un corpus textual es un conjunto de textos, codificados digitalmente, que comparten una o varias características, aunque es conveniente matizar diferentes cuestiones relacionadas con esta definición. En primer lugar, cuando hablamos de textos, nos referimos, tanto a cualquier texto completo o fragmento (una novela, una revista, un artículo, un guion, un fragmento de una novela etc.), como a cualquier otra representación escrita (transcripciones de los diálogos de una película, de un programa radiofónico, etc.).

No debemos olvidar que el fin último de un corpus es el de permitir la realización y/o validación de diferentes tipos de estudios (léxicos, gramaticales, semánticos, sociolingüísticos, etc., dependiendo del corpus en particular), por lo que una selección adecuada de los textos es fundamental para que el corpus pueda servir al propósito para el que ha sido creado.

¿Qué es codificar un corpus?

Es un proceso que consiste en categorizar y digitalizar archivos en una base de datos. En el campo del procesamiento de la lengua natural a partir de corpus de referencia podemos hablar de tres niveles de marcación:

¿Qué nos permiten los corpus?

La comprensión y el uso efectivo del lenguaje en ámbitos concretos. Además, ¡el proceso de codificación es fundamental! Esta permite el estudio sistemático y preciso de la lengua. Los corpus lingüísticos se utilizan para hacer análisis estadísticos y contrastar hipótesis sobre el área que estudian. Este tipo de corpus cada vez cuenta con más partidarios. De hecho, gracias al estudio de la lengua que estos corpus ofrecen, algunos postulados lingüísticos han sido puestos en duda.

Así, se llama lingüística de corpus a la subdisciplina de la lingüística que estudia la lengua a través de estas muestras. Este tipo de aproximación choca con el enfoque chomskiano que tiende a estudiar la lengua a través de la intuición lingüística del hablante. Esta subdisciplina, dado el volumen de datos que maneja, suele asociarse con la lingüística computacional, según esta última se acerca a las aplicaciones del procesamiento de lenguaje natural. Es en este punto donde, de nuevo, resulta fundamental el papel de los codificadores.

¡Anímate a formar parte del proyecto CORPEN Comillas! Contacta con nosotros a través de los correos corpencomillas@gmail.com o cristinaamontess@gmail.com. ¡Únete al proyecto CORPEN!