Le parole viaggiano nel tempo e nello spazio, racchiudono segreti, trasportano nella loro vita errabonda incontri, amori, furti e assalti. Su ilLibraio.it il capitolo del nuovo saggio di Alberto Nocentini, "La vita segreta della lingua italiana", dedicato al lessico fondamentale

Le parole viaggiano nel tempo e nello spazio, racchiudono segreti, trasportano nella loro vita errabonda incontri, amori, furti e assalti. Sono tracce, segnali indistruttibili che percorrono epoche e paesi. Mettetevi a cavalcioni di una parola e farete uno straordinario viaggio nel tempo e nello spazio, ricco di curiosità, di Storia e di storie, un viaggio che restituisce per intero la bellezza e la grandezza della lingua italiana, da sempre fucina e punto di incontro di culture. Nel saggio La vita segreta della lingua italiana (Ponte alle Grazie), Alberto Nocentini, che ha scarpinato con passione per tutta la vita tra le pagine dei dizionari, racconta che cos’è un’indagine etimologica, quali sono i criteri per condurla, come si data una parola e da dove proviene: scoprire il nesso, la motivazione che lega le cose ai loro nomi equivale a render chiara la nostra rappresentazione del mondo e l’etimologia è la chiave che apre i segreti più o meno riposti della nostra lingua, patrimonio da conservare, ammirare, esplorare.

Su ilLibraio.it, per gentile concessione di Ponte alle Grazie, proponiamo il capitolo “Il lessico fondamentale: quante parole sappiamo?”

Il gigantesco rovere abbattuto

l’intero inverno giacque sulla zolla

mostrando in cerchi, nelle sue midolla,

i centonovant’anni che ha vissuto.

L’immagine dell’albero abbattuto che ci racconta la sua vita attraverso la visione dei cerchi concentrici che formano il tronco – qui evocata con maestria da Guido Gozzano – è una metafora efficace del lessico della nostra lingua. I cerchi rappresentano le fasi stratificate della sua formazione e del suo progressivo accrescimento. Al centro, quale cerchio più antico, collocheremo il nocciolo duro e più precisamente quegli elementi del nocciolo duro che persistono dalla preistoria. Subito dopo tocca agli elementi della lista di Swadesh che rivelano la stessa persistenza.

Per i cerchi successivi incominciano le difficoltà: primo perché un lavoro di sistemazione cronologica del lessico non è mai stato fatto; secondo perché la fissazione di quella che abbiamo chiamato anagrafe del lessico in molti casi non è possibile per via della documentazione, che presenta lacune e incertezze tali da compromettere la validità dei risultati. Poiché però la nostra vita è breve e abbiamo bisogno di risultati immediati, ci affideremo a un altro criterio di misurazione: se la via della diacronia è impervia e tortuosa, proviamo colla scorciatoia della sincronia.

In questo caso il criterio di misurazione sarà la frequenza d’uso e la lettura della successione dei cerchi concentrici si atterrà a questo: al centro i termini più frequenti e via via verso la periferia i termini con frequenza decrescente. Sebbene la persistenza e la frequenza d’uso siano due proprietà diverse, sono legate da uno stretto rapporto, in quanto la frequenza è un requisito necessario per la persistenza di una parola.

Nel corso dell’ultimo mezzo secolo è stato condotto un notevole lavoro di raccolta che ha portato alla compilazione di lessici di frequenza sia dell’italiano scritto contemporaneo sia dell’italiano parlato; i primi fondati principalmente sugli spogli della stampa periodica, i secondi tratti dalle trasmissioni radiofoniche e televisive e dalle conversazioni telefoniche. Per l’analisi dei risultati faremo riferimento ai dati forniti dall’edizione del 2007 del GRADIT a opera di Tullio De Mauro e dei suoi collaboratori.

Sulla base dello spoglio del corpus dei testi scritti, il cerchio più interno del lessico italiano, che si definisce «lessico fondamentale», risulta formato da poco più di 2000 parole ad altissima frequenza, che costituiscono il 90% delle attestazioni dell’intero corpus. Il secondo cerchio, che si fonda anche sui testi orali, comprende oltre 2500 parole ad alta frequenza.

I lessici di frequenza corrono però il rischio della circolarità, in quanto registrano solo i testi che rientrano nelle tipologie previste; questi non esauriscono la casistica della comunicazione verbale e della competenza lessicale del parlante – fatti salvi i termini specialistici propri di ogni professione, che restano fuori dalla nostra considerazione. Rischiano invece di restar fuori le parole che si riferiscono a oggetti e nozioni che fanno parte della nostra vita quotidiana, ma che ci capita raramente di nominare e ancor più raramente di scrivere. Per rimediare a questo inconveniente è stata compilata una lista di parole definite di «alta disponibilità».

Mettendo insieme il lessico fondamentale, la lista di alta frequenza e la lista di alta disponibilità si ottiene il «vocabolario di base» per un totale di circa 6500 unità, che costituiscono il 99% dei testi raccolti. Queste sono le parole che la quasi totalità dei parlanti adulti comprende ed è in grado di usare correttamente. Lo squilibrio fra le potenzialità del lessico depositate nei vocabolari e il loro uso effettivo è sconcertante: alla maggioranza preponderante delle parole disponibili tocca appena l’1% delle attestazioni. Considerato poi che i vocabolari più accreditati e diffusi, quali il De Mauro, il Devoto-Oli, lo Zingarelli e il DISC di Sabatini-Coletti, contengono in media 120.000 voci, le 6500 parole del vocabolario di base rappresentano meno del 5,5% del lessico italiano e il lessico fondamentale appena l’1,6%.

Di fronte a questi dati al lettore verrà fatto di chiedersi se valga la pena che i lessicografi si diano tanto da fare a compilare vocabolari il più possibile completi e aggiornati con decine di migliaia di parole, quando ai parlanti ne bastano molto meno di diecimila. Ebbene questo ragionamento va rovesciato: l’utilità di un vocabolario sta proprio nel fornire al parlante ciò che gli manca, ossia le parole che sono al di fuori della sua competenza.

Si pensa di solito che i vocabolari siano strumenti riservati agli addetti ai lavori, quali gli insegnanti, i giornalisti, gli scrittori; in realtà queste sono le categorie che ne avrebbero meno bisogno. Chi ne potrebbe trarre la massima utilità sono tutti quelli che hanno un vocabolario personale più ristretto delle 6500 parole del vocabolario di base, cioè la maggioranza dei parlanti. La ragione è semplice quanto scomoda da riconoscere: ampliare il proprio vocabolario significa accrescere le possibilità di promozione sociale. Chiunque abbia imparato un mestiere o ricevuto una formazione professionale o intrapreso una carriera o un’iniziativa economica lo ha sperimentato su di sé, acquisendo un vocabolario adeguato.

Prima di abbandonare le statistiche, vediamo un altro aspetto per il quale possono essere utilmente applicate, quello che riguarda la classificazione genetica. Noi diamo per scontate e universalmente acquisite formule classificatorie come «l’italiano è una lingua neolatina» e «il latino è una lingua indoeuropea». Facendo riferimento al lessico come parte della lingua essenziale alla sua classificazione, qualche dubbio sull’ovvietà di queste formule ci viene dalla considerazione che il lessico italiano non è unitario ma composito, in quanto contiene numerosi elementi provenienti da altre lingue, che vanno sotto il nome generico di prestiti.

Per citare qualche dato in grado di scuotere la nostra fiducia, ricorderemo che i prestiti provenienti dalle lingue germaniche superano abbondantemente i 1500, che i grecismi entrati in italiano per vie diverse assommano a quasi 3500 e che le lingue che hanno contribuito a formare il lessico italiano, indipendentemente dall’entità del loro contributo, sono circa 150.

Per porre la questione nei giusti termini va detto prima di tutto che ciò che è parte essenziale per la classificazione genetica di una lingua non è il lessico nella sua totalità, ma il suo nucleo centrale, formato dalle parole effettivamente usate e conosciute dalla totalità dei parlanti, in breve il suo vocabolario di base. Poiché 6500 elementi sono troppi da gestire, limiteremo lo scrutinio ai 2000 del lessico fondamentale (2071 per la precisione), in quanto fortemente rappresentativi per una lingua letteraria come l’italiano; oltre a essere i più frequenti e a costituire il 90% delle attestazioni, hanno il vantaggio, in quanto provenienti da testi scritti, di essere datati in termini di cronologia assoluta.

I risultati dello scrutinio si riassumono nella tabella seguente, dove gli elementi del lessico fondamentale sono suddivisi in base alla classe etimologica, cioè alla loro provenienza, con l’indicazione dei valori assoluti e dei valori percentuali corrispondenti:

latino di eredità indoeuropea          810          39,11%

latino di varia provenienza             815          39,35%

innovazioni neolatine                      334          16,13%

prestiti dal greco                               16            0,77%

prestiti dalle lingue germaniche        69            3,33%

prestiti da lingue non indoeuropee     9            0,44%

altri (derivazione da nomi propri)     18            0,87%

Le percentuali sono eloquenti: l’eredità trasmessa dal latino costituisce il 78,46% del lessico fondamentale; se a questa percentuale si aggiungono le innovazioni fatte con materiali ereditati dal latino si arriva al 94,59%. Del tutto ridimensionato è l’apporto diretto del greco (vedi capitolo 14, p. 79), delle lingue germaniche e delle lingue «esotiche». La classificazione dell’italiano come lingua neolatina è più che legittima e anche come lingua indoeuropea, per quanto più diluita sia la sua eredità.

Le cifre non fanno altro che confermare, nella loro asettica oggettività, quel che abbiamo osservato al capitolo 4 a proposito dell’identità verticale delle lingue della civiltà occidentale, argomento che svilupperemo con tutte le sue conseguenze nel prossimo capitolo.

(continua in libreria…)

Commenti