Corpus de referencia del español actual (CREA)

El Corpus de referencia del español actual (CREA) es un conjunto de textos de diversa procedencia, almacenados en soporte informático, del que es posible extraer información para estudiar las palabras, sus significados y sus contextos. Un corpus de referencia es aquel que está diseñado para proporcionar información exhaustiva acerca de una lengua en un momento determinado de su historia y, por tanto, ha de ser lo suficientemente extenso para representar todas las variedades relevantes de la lengua en cuestión. Atendiendo a este criterio, el CREA cuenta hasta ahora (abril de 2005) con unos 160 millones de formas, que se aumentarán hasta conseguir unos 170 millones en los próximos meses, en los que finalizará la fase que recoge textos generados entre 2000 y 2004. Se compone de una amplia variedad de textos escritos y orales, producidos en todos los países de habla hispana desde 1975 hasta la actualidad. Los textos escritos, procedentes tanto de libros como de periódicos y revistas, abarcan más de cien materias distintas. La lengua hablada está representada por transcripciones de documentos sonoros, procedentes, en su mayor parte, de la radio y la televisión. Continúe leyendo.

 

( categories: | )