La legge di Zipf: cos'hanno in comune un libro, un genoma e una composizione musicale?

Fig.1 - Particolare del manoscritto Voynich
È possibile mettere insieme in una discussione un misterioso manoscritto medievale, il genoma dei viventi e la musica dodecafonica? 
Una formula matematica ci consente di farlo.

Il linguista George Kingsley Zipf nel 1935 si accorse di un fatto curioso: prendendo un libro in qualsiasi lingua ed elencando in ordine di frequenza di occorrenza tutte le parole in esso contenute, è possibile notare che ogni frequenza tende ad essere uguale al rapporto tra la frequenza della parola più ricorrente e il numero della posizione in classifica della parola in esame.

In un grafico doppio logaritmico delle frequenze in funzione del rango (cioè dell'indice legato alla posizione in classifica) si vede che i dati descrivono approssimativamente una retta con coefficiente angolare  di circa -1.


Fig.2 - Analisi alla Zipf effettuata per i "Promessi Sposi"

La legge di Zipf è verificata anche per altri tipi di dati, come il numero degli abitanti delle città di una nazione in funzione del numero di città con tale numero di abitanti, il numero dei terremoti in funzione della loro intensità, ecc. Il motivo di ciò è dibattuto.
Di applicazioni può averne virtualmente tante, ad esempio può aiutare a comprendere se un libro scritto in caratteri misteriosi è un testo vero e proprio, con un reale significato da decifrare, o una mera sequenza di simboli inanellati senza criterio a scopo truffaldino. 

Ad esempio un'analisi del famoso manoscritto Voynich (Fig.1, un testo del XV secolo scritto in caratteri sconosciuti e pieno di misteriose illustrazioni di argomento botanico, astronomico, ecc) ha riscontrato il verificarsi della legge di Zipf, solo che questa informazione da sola non chiude ancora la questione, visto che il rispetto della legge di Zipf da parte di un testo è una condizione necessaria ma non sufficiente per stabilire la presenza di un significato.


A dirla tutta è anche possibile mostrare che la legge di Zipf ha un qualche legame con un'altra legge, quella di Benford, anch'essa riscontrabile solo in alcune raccolte di dati.
Nelle tabelle numeriche in cui è verificata (qualche esempio: numero di abitanti dei comuni, quotazioni di borsa, area dei laghi ecc) la legge di Benford descrive la probabilità con cui i numeri da 1 a 9 compaiono come prima cifra significativa. 
Si vede che la probabilità di occorrenza decresce rapidamente al crescere del numero, invece di essere sempre pari a 1/9 come ci si potrebbe aspettare di primo acchito. 
A partire della sua verificata invarianza di scala è possibile ricavare un'espressione più generale di questa legge che comprende, tra le varie, la legge di Zipf.
Anche le possibili applicazioni della legge di Benford sono abbastanza curiose: si è proposto di sfruttarla per valutare al volo se dati riportati da articoli scientifici o pubblicistica politica sono credibili o palesi "taroccamenti", o per stanare probabili evasori fiscali.

Tornando alla legge di Zipf, vale la pena segnalare due applicazioni in particolare.
La prima ha come oggetto il genoma degli organismi viventi: sotto qualche aspetto può ricondursi ai linguaggi umani?

Il DNA, srotolato, si presenta come una sequenza di nucleotidi di quattro tipi, identificabili con le lettere A, T, G, C (Adenina, Timina, Guanina e Citosina). 
Questi nucleotidi possono essere considerati realmente come lettere, cioè come unità minime di parole? Se sì, quali sarebbero le parole?
Insomma, un pezzo di genoma potrebbe veicolare informazione allo stesso modo di una pagina di libro, ma in un libro identifichiamo immediatamente le parole perché separate da spazi e punteggiature, come si può individuare l'analogo delle parole nel DNA?


Si è tentata, su genomi di diversi organismi, una variazione alla consueta analisi: si analizza la frequenza di occorrenza di stringhe di nucleotidi di varia lunghezza, da 2 in su, fermandoci però ad una lunghezza massima non troppo grande.
Le lunghezze partono da 2 perché  la lunghezza 1 equivarrebbe a considerare come parole i singoli nucleotidi, e quindi l'analisi alla Zipf ci porterebbe solamente alla frequenza di occorrenza di A, T, G e C (ma già sappiamo che più o meno ricorrono con la stessa frequenza, con un rapporto di 1:1 tra pirimidine e purine, come dice la prima regola di Chargaff). 


Per quanto riguarda la lunghezza massima, facciamo una considerazione preliminare: le quattro lettere che stiamo considerando possono formare un numero di parole di L caratteri pari a 4, e naturalmente la probabilità di pescare una di queste parole dall'insieme complessivo è pari a 1/(4L).

Diventa evidente dunque che la probabilità di trovare una parola lunga L caratteri diminuisce rapidamente  al crescere di L, e questo rende completamente inutile la ricerca di parole con L troppo grande.
Si fissa allora arbitrariamente un valore massimo di L non troppo grande, con la sola accortezza che L sia comunque molto più piccolo della stringa di genoma che vogliamo analizzare (altrimenti non avremmo la ricorsività che vogliamo analizzare).
Per ogni valore di L ordineremo le parole dalla più frequente alla meno frequente, indicizzandole come al solito, e nel grafico doppio logaritmico delle frequenze in funzione del rango troverò (i numeri che seguono sono presi da uno studio del 1994 di Mantegna, Buldyrev, Goldberger, Havlin, Peng, Simons, Stanley) che i dati si raccolgono approssimativamente in corrispondenza di una retta con coefficiente angolare del valore di -0,283. 

Ora, il genoma degli esseri viventi è in realtà costituito da una parte codificante (che viene cioè tradotta in RNA per la produzione di proteine) e in una parte non codificante, sulla cui funzionalità esistono molte ipotesi. 
Se si ripete l'analisi alla Zipf su questi due tipi di DNA presi separatamente troviamo un risultato interessante: per il DNA codificante abbiamo una retta con coefficiente angolare -0,283 e per quello non codificante una retta con coefficiente angolare -0,537. 

Come si vede, c'è una disparità, ma in nessuno dei due casi apparentemente è verificata la legge di Zipf. 

Tuttavia non possiamo scordare l'espediente che abbiamo utilizzato per sopperire all'impossibilità di distinguere le eventuali parole contenute nel genoma.
E se provassimo ad effettuare questo stesso identico tipo di analisi su un testo scritto in lingua umana, come se non fossimo in grado di distinguere le parole? 

La cosa interessante è che in questo modo si arriva ad un risultato sovrapponibile a quello già ottenuto con l'analisi del DNA non codificante.
Sorprendente comunque che il DNA non codificante mostri un apparente contenuto informativo maggiore di quello esibito dal DNA codificante.



Fig. 3 - Confronto tra genoma codificante e non codificante di C. elegans,
si nota che il secondo approssima meglio la retta tipica della Legge di Zipf



Un altro curioso campo che si può esplorare con gli strumenti fin qui descritti è quello della musica.
La musica tonale era emersa parallelamente allo sviluppo dell'armonia fino a raggiungere la sua piena maturazione nel XVIII secolo, entrò però in crisi sul finire del XIX secolo, quando compositori sempre più desiderosi di evadere dalle consuete formule oramai stantie presero ad introdurre nei loro brani cromatismi e dissonanze sempre più esasperati. 

Questa disgregazione progressiva della tonalità approdò, nei primi anni del XX secolo, alla dodecafonia.
La dodecafonia fu invenzione di Arnold Schönberg, se si tace per esigenze di sintesi di Josef Matthias Hauer, che l'aveva preceduto di poco ma con una tecnica dodecafonica basata su principi diversi e destinata a non avere futuro. 

Si tratta di adoperare, come unità modulari, successioni (dette "serie") di tutte e dodici le note della scala cromatica senza ripetizioni. 
In pratica prima di poter ripetere una nota devono essere impiegate anche tutte le altre undici. Le serie possono essere strutturate in microserie analoghe tra loro per strutture intervallari e ogni serie può presentarsi sotto forma di variazioni desunte dalle tradizionali regole contrappuntistiche (ad esempio una serie può essere invertita). 
Questo modo di procedere, garantendo che nel complesso nessuna nota rivesta un ruolo predominante sulle altre, indebolisce il senso tonale della musica, sebbene non possa eliminarlo del tutto perché inevitabilmente si presentano sempre, localmente, aggregati di note che suggeriscono all'orecchio un'interpretazione tonale. 
È per questo motivo che, a proposito di questa musica, si è parlato anche di atonalità, mentre il termine politonalità, preferito da Schönberg, non ha avuto molto successo.
     
Fig. 4 - Arnold Schönberg

Compagni di Schönberg in questa avventura furono i suoi due allievi, Alban Berg e Anton Webern. 
Quest'ultimo, il più rigoroso nell'applicazione del metodo, ispirò compositori successivi ad estendere il principio della serializzazione ad altri parametri oltre che alle note della scala (il primo tentativo ad opera di Olivier Messiaen). 

Nel 1952, dalle pagine di una rivista, al grido di "Schönberg è morto!" Pierre Boulez inaugura l'era della serialità integrale, in cui ogni parametro è sottoposto a serializzazione, il risultato musicale però si avvicina sospettosamente agli esiti  delle sperimentazioni con l'alea (a cui si accosterà Boulez stesso, ispirato dal confronto con John Cage).
  
Fig. 5- Pierre Boulez

Un altro grande della musica del Novecento, György Ligeti, esprimerà diffidenza verso il serialismo per questo motivo: "Questo processo di appiattimento è irreversibile. 
Si possono distinguere sintomi di tale tendenza già nelle composizioni seriali elementari. 
In questi casi premessa della scrittura è che gli elementi dovrebbero essere usati con la stessa frequenza e ognuno di essi dovrebbe avere la stessa importanza. 
Ciò porta irresistibilmente a un aumento dell'entropia. Più sarà accurata la rete delle operazioni con materiale preordinato, più alto sarà il grado di livellamento nel risultato. L'applicazione totale e insistita del principio seriale porta, alla fine, alla negazione del serialismo stesso. 
Non vi è autentica differenza di base tra i risultati dell'automatismo  e i prodotti del caso: la determinazione totale risulta eguale alla totale indeterminatezza".
Il fisico Damián Zanette ha sottoposto alcuni brani musicali ad un'analisi alla Zipf, per tentare di venire a capo del problema. 

Considerando come parole le singole note, differenziandole però non solo per altezza ma anche per durata, ha verificato che brani dal sicuro impianto tonale (di compositori come Johann Sebastian Bach o Wolfgang Amadeus Mozart) sembrano avere un maggior contenuto informativo di composizioni dodecafoniche come il primo dei 3 pezzi per pianoforte, Op. 11, di Schönberg. 
L'analisi presenta un'eccezione quando, come compositore dodecafonico, si sceglie Anton Webern, il quale esibisce grafici comparabili con quelli relativi alla musica tonale. 
Il problema è che la musica di Webern è estremamente rarefatta, probabilmente con troppe poche note perché sia lecito applicare lo stesso tipo di analisi.
Naturalmente a Zanette potrebbero essere rivolti numerosi appunti, a cominciare dal tipo di elementi che ha deciso di considerare come "parole". Tuttavia la sua intuizione può suggerire nuovi percorsi di ricerca nel campo dei 
meccanismi percettivi coinvolti nell'ascolto e nell'apprezzamento musicale.


Bibliografia e sitografia:

Fig. 1 tratta dal blog "Quanti di scienza

"Armonia celeste e dodecafonia", Andrea Frova, BUR Rizzoli 2006
"Zipf's law and the creation of musical context", Damian H, Zanette"
"Linguistic features of noncoding DNA sequences", R. N. Mantegna, S. V. Buldyrev, A. L. Goldberger, S. Havlin, C. -K. Peng, M. Simons, H. E. Stanley, Physical Review Letters  73, 1994
"Explaining the uneven distribution of numbers in nature: the laws of Benfors and Zipf", L. Petronero, E. Tosatti, V. Tosatti, A. Vespignani, Physica A 293, 2001

Commenti

Posta un commento

Post più popolari