Cos’è un messaggio?

Se qualcuno ti racconta un fatto che già conosci, essenzialmente non ti ha detto nulla. Mentre se ti comunica un segreto, è giusto dire che qualcosa è stato davvero comunicato.

Questa distinzione è al centro della teoria dell’informazione di Claude Shannon. Introdotto in un documento epocale del 1948, ” A Mathematical Theory of Communication “, che fornisce un quadro matematico rigoroso per quantificare la quantità di informazioni necessarie per inviare e ricevere accuratamente un messaggio.

Contenuto e informazione

Immaginiamo di avere a disposizione una moneta truccata, dove la testa è su entrambi i lati, e di lanciarla in aria due volte. Quante informazioni servono per comunicare il risultato? Nessuna, perché prima di ricevere il messaggio, si ha la completa certezza che in entrambi i lanci verrà fuori testa.

Ora facciamo i lanci con una moneta normale: testa da un lato, croce dall’altro. Possiamo comunicare il risultato usando il codice binario: 0 per testa, 1 per croce. Ci sono quattro messaggi possibili – 00, 11, 01, 10 –, e ciascuno richiede due bit di informazioni.

Allora, qual è il punto? Nel primo caso si aveva la certezza assoluta sul contenuto del messaggio e ci volevano zero bit per trasmetterlo. Nel secondo si ha 1 possibilità su 4 di indovinare la risposta giusta (25% di certezza) e il messaggio necessita di due informazioni per risolvere quell’ambiguità. Più in generale, meno si sa su cosa dirà un messaggio, più informazioni saranno necessarie per trasmetterlo.

La formula dell’informazione

Shannon è stata la prima persona a rendere questa relazione matematicamente precisa. Lo ha fatto in una formula che calcola il numero minimo di bit – poi chiamata entropia di Shannon – necessari per comunicare un messaggio. Ha anche mostrato che se un mittente utilizza meno bit del minimo necessario, il messaggio verrà inevitabilmente distorto.

Shannon ha avuto l’intuizione di capire che l’informazione è massimizzata quando si è più sorpresi di apprendere qualcosa.

Entropia e informazione

Il termine entropia è preso in prestito dalla fisica, dove rappresenta una misura del disordine . Una nuvola ha un’entropia maggiore di un cubetto di ghiaccio, poiché una nuvola consente molti più modi per disporre le molecole d’acqua rispetto alla struttura cristallina di un cubo. In modo analogo, un messaggio casuale ha un’elevata entropia di Shannon – perché ci sono tante possibilità su come organizzare le sue informazioni – mentre un messaggio che obbedisce a uno schema rigoroso ha una bassa entropia. Ci sono anche somiglianze formali nel modo in cui l’entropia viene calcolata sia in fisica sia in teoria dell’informazione. In fisica, la formula dell’entropia implica l’assunzione di un logaritmo di possibili stati fisici. Nella teoria dell’informazione, è il logaritmo dei possibili esiti di eventi.

Sì, no

Un altro modo di pensare all’entropia di Shannon è dato dal numero di domande con risposta ‘sì’ o ‘no’ necessarie, in media, per accertare il contenuto di un messaggio.

Per esempio, immaginiamo due stazioni meteorologiche, una a San Diego, l’altra a St. Louis. Ciascuno vuole inviare all’altro le previsioni di sette giorni per la sua città. San Diego è quasi sempre soleggiata, il che significa che si ha un’alta fiducia in ciò che diranno le previsioni. Il tempo a St. Louis è più incerto: le possibilità di una giornata di Sole sono più vicine al 50%.

Quante domande sì o no ci vorrebbero per trasmettere ogni previsione di sette giorni? Per San Diego, una prima domanda utile potrebbe essere: tutti e sette i giorni delle previsioni sono soleggiati? Se la risposta è sì (e c’è una buona possibilità che lo sia), si è determinata l’intera previsione in una singola domanda. Ma con St. Louis devi quasi elaborare le previsioni un giorno alla volta: il primo giorno è soleggiato? E il secondo?

Più certezza c’è sul contenuto di un messaggio, meno necessità di domande sì o no per determinarlo.

Per fare un altro esempio, consideriamo due versioni di un gioco dell’alfabeto. Nella prima, si seleziona una lettera a caso dall’alfabeto inglese e vogliamo che la si indovini. La migliore strategia di indovinare richiede in media 4,7 domande per ottenerla (una prima domanda utile sarebbe: “La lettera è nella prima metà dell’alfabeto?”).

Nella seconda versione del gioco, invece di indovinare il valore di lettere casuali, si cercan di indovinare lettere in parole inglesi. Ora si può sfruttare il fatto che alcune lettere appaiono più spesso di altre (“È una vocale?”) e che conoscere il valore di una lettera aiuta a indovinare il valore della successiva (q è quasi sempre seguito da u). Shannon ha calcolato che l’entropia della lingua inglese è 2,62 bit per lettera (o 2,62 domande sì o no necessarie), molto inferiore ai 4,7 di cui si avrebbe bisogno se ogni lettera apparisse casualmente. In altre parole, i modelli riducono l’incertezza, il che rende possibile comunicare molto utilizzando relativamente poche informazioni.

Si noti che in esempi come questi, si possono porre domande migliori o peggiori. L’entropia di Shannon stabilisce un livello inviolabile: è il numero minimo assoluto di bit, o domande sì o no, necessari per trasmettere un messaggio.

L’informazione compressa

Oggi, l’entropia di Shannon funge da parametro di riferimento in molti contesti applicati, inclusa la tecnologia di compressione delle informazioni. Il fatto che si possa ‘zippare’ un file di film di grandi dimensioni, per esempio, è dovuto al fatto che i colori dei pixel hanno uno schema statistico, come hanno le parole inglesi. Gli ingegneri possono costruire modelli probabilistici per schemi di colori dei pixel da un fotogramma all’altro. I modelli consentono di calcolare l’entropia di Shannon assegnando pesi ai pattern e quindi prendendo il logaritmo del peso per tutti i possibili modi in cui i pixel potrebbero apparire. Quel valore ti dice il limite della compressione “senza perdita di dati”, ossia qual è la massima compressione oltre la quale il film può iniziare a perdere informazioni sul suo contenuto.

Le prestazioni di qualsiasi algoritmo di compressione possono essere paragonate a questo limite. Se sei lontano da questo limite, hai un incentivo a lavorare di più per trovare un algoritmo migliore. Ma se ci sei vicino, sai che le leggi dell’informazione dell’universo ti impediscono di fare molto meglio.

*Kevin Hartnett/Quanta Magazine