Por un análisis distante y profundo: un corpus piloto de la poesía lírica castellana del Siglo de Oro
Autores
Navarro Colorado, BorjaEditor
Universidad de Alcalá. Servicio de Publicaciones
Fecha de publicación
2019Cita bibliográfica
Revista de poética medieval, n. 33 (2019), pp. 51-76
Palabras clave
Análisis distante
Poesía lírica
Siglo de Oro
Métrica
Procesamiento del Lenguaje Natural
Anotación de corpus
Distant reading
Poetry
Golden-Age
Meter
Natural Language Processing
Corpus annotation
Tipo de documento
info:eu-repo/semantics/article
Derechos
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Derechos de acceso
info:eu-repo/semantics/openAccess
Resumen
En este trabajo se plantea la necesidad de combinar el análisis llamado
«distante» (análisis panorámico de gran cantidad de texto literario) con el análisis
profundo (análisis en detalle de diferentes aspectos lingüísticos o literarios). Para
ello se propone la creación de amplios corpus literarios de referencia en los que,
aprovechando los actuales avances en procesamiento del lenguaje natural, la información implícita del texto (tanto de tipo lingüístico como literario) esté marcada
de manera explícita y formal. La propuesta se concreta en el diseño y desarrollo de
un corpus piloto de la poesía lírica del Siglo de Oro que incluye poemas con diferentes modelos métrico-estróficos (sonetos, romances, liras, églogas, etc.) así como
diversidad de autores. Actualmente consta de más de 52.000 versos anotados con
información lingüística (palabras, lemas, categorías gramaticales y morfología) y
literaria (tipo de poema o estrofa y métrica). Si bien la anotación general del corpus
ha sido realizada de manera automática, un 10% de esa anotación (5069 versos) ha
sido revisada, validada o, en su caso, corregida por expertos. Este 10%, en tanto que
Gold Standard, es ya un primer paso tanto para el análisis distante y profundo de la
poesía castellana como para el desarrollo de sistemas de procesamiento del lenguaje
natural específicos para el texto literario y poético. This paper shows the necessity of combine the distant reading of literary
texts (panoramic analysis of a great amount of texts) with «deep» reading (close
analysis in detail of implicit linguistic or literary aspects of texts). With this objective, the development of large annotated corpora of literary texts is proposed. Taking
advantage of recent developments of Natural Language Processing, the linguistic
and literary implicit information could be annotated semi-automatically. In order to
show the viability of this proposal, a pilot corpus of Golden-Age Spanish poetry is
presented. The corpus is made-up of different types of poems (sonnets, romances,
eclogues, etc.) and several poets. Nowadays it has more than 52,000 lines annotated
at metrical and morphological level: metrical patterns of each line, and the lemma,
part of speech and morphological information of each word. The annotation was
developed automatically. 5,069 lines has been revised manually and emended (if
necessary). This Gold Standard is the first step both for a distant and deep literary
analysis of Golden-Age Spanish poetry and for the development of poetry- specific
models of Natural Language Processing
Ficheros en el ítem
Ficheros | Tamaño | Formato |
|
---|---|---|---|
navarro_por_RPM_2019_N33.pdf | 754.3Kb |
|
Ficheros | Tamaño | Formato |
|
---|---|---|---|
navarro_por_RPM_2019_N33.pdf | 754.3Kb |
|