Pagine personali

Siti utili

mercoledì 1 settembre 2021

Un corpus sempre giovane (CORIS/CODIS)

Una delle prime imprese alle quali ho collaborato è stata la creazione, a cavallo del 2000, del primo grande CORpus dell'Italiano Scritto contemporaneo: il CORIS, sviluppato presso il Centro Interdipartimentale di Linguistica Teorica e Applicata dell'Università di Bologna sul modello dei grandi corpora elettronici delle lingue europee che stavano rinnnovando la lessicografia (in particolare il BNC, British National Corpus). Erano anni di grandi collaborazioni: con John Sinclair soprattutto. Insieme a M.A.K. Halliday, uno dei geniali allievi di J.K. Firth, il linguista britannico che aveva sviluppato la teoria contestuale del significato. 

Se il significato di una parola si può cogliere solo attraverso gli usi di una parola (come sostenevano negli stessi anni gli antropologi Ogden e Richards), cosa c'è di meglio di una grande base di dati da cui estrarre automaticamente liste di parole in contesto, a partire da tipi di testi diversi, tutti autentici e rappresentativi della lingua in uso? Se poi queste raccolte di testi digitali possono essere interrogate grazie a programmi appositi capaci di generare concordanze, liste di frequenza e altre misure statistiche di prossimità semantica, il gioco è fatto.

Da questa idea, sviluppata grazie alla nascente linguistica computazionale (già applicata ai testi sacri), prese forma una fortunata corrente di studi in ambito internazionale: la corpus linguistics o "linguistica dei corpora".  Oggi, a distanza di oltre vent'anni, la vitalità di quella scuola è circoscritta, ma restano le grandi basi di dati che ambiziosi progetti hanno contribuito a creare nei diversi paesi. 

In alcuni casi, come nel nostro, la base preesistente (150 milioni di parole provenienti da testi raccolti tra il 1980 e il 2000, spesso digitalizzati e annotati manualmente), continua a essere rimpinguata, grazie a corpora di monitoraggio inglobati con scadenza triennale. La sapiente manutenzione di Fabio Tamburini ha negli anni reso il CORIS (con il suo corrispettivo "dinamico" CODIS, modulabile in base alle tipologie di testi contenuti in vari sottocorpora) uno strumento ancora fruibile e aggiornato, utile per ricerche e applicazioni didattiche.

 

 

Basta familiarizzare con la maschera di interrogazione del corpus (in inglese), capire in che modo le parole vadano inserite per ottenere i risultati voluti. 

Facciamo una prova con una parola che l'attualità ha riportato nella lingua dell'uso: "pandemia" (la parola va trascritta proprio così, tra virgolette). Otteniamo 1022 occorrenze totali, di cui la maggior parte provenienti dal corpus di monitoraggio 2017_2020 (il programma consente di scegliere l'arco temporale, time slice, della ricerca) e dal sottocorpus della stampa (anche in questo caso è possibile scegliere se limitare o estendere la ricerca ad altri subcorpora). 

 


 

Il programma ci fa scegliere se visualizzare 30/100/300/1000 concordanze (nel formato KWIC: key word in context), e come ordinarle (sort): partendo per esempio dalla parola che precede, a sinistra (-1), o da quella che segue, a destra (+1). Dipende da quello che vogliamo osservare: l'uso degli articoli o degli aggettivi associati alla nostra parola, per esempio. 

In ogni caso, il programma è in grado di calcolare da solo (utilizzando misure statistiche) i collocates cioè i "collocati/collocatari", le parole con cui la nostra parola cooccorre più spesso: nel caso di pandemia troveremo elencati coronavirus, COVID-19, emergenza, scoppioimpatto, gestione... 

Il corpus è inoltre lemmatizzato, per cui può contemporaneamente estrarre le diverse forme di parola (in questo caso quella singolare e quella plurale, "pandemie", che è meno frequente: se ne trovano solo 36 esempi nell'intero corpus).

Insomma, a volerne studiare la presentazione e le funzionalità, e a volersi impratichire con il linguaggio di interrogazione (query), si possono fare interessanti ricerche e scoperte. Che, a differenza di quelle supportate da motori di ricerca generali, producono risultati "puliti": provenienti cioè da testi selezionati e annotati a scopi di studio e di ricerca, non a fini commerciali.

Buone esplorazioni!   

1 commento: