Consistency is more important

All’inizio della mia carriera scientifica ho avuto la fortuna di lavorare nell’esperimento L3 a LEP diretto dal Premio Nobel Samuel C.C. Ting, dal quale credo d’aver imparato molte cose importanti. Una delle cose che Ting usava dire, che resta sempre scolpita nella mia mente, era “consistency is more important than truth“.

Cito questa frase a proposito delle discussioni che imperversano sulla rete relative all’affidabilità dei numeri forniti dalla protezione civile, riguardanti la diffusione del COVID19. Da piú parti s’invoca un cambio di strategia sui criteri per fare i tamponi ai fini di una maggior affidabilità dei dati epidemiologici.

Se c’è una cosa che so è che non sono un epidemiologo e quindi non ho alcuna intenzione di interpretare i numeri come tale. Può darsi che per un epidemiologo questo sia importante. Non lo so.

Per un fisico, almeno entro certi limiti, lo è poco. Dal mio punto di vista i dati che provengono dalla protezione civile sono a tutti gli effetti paragonabili ai dati che si raccolgono a un esperimento nel quale si misura una grandezza fisica di cui non si conosce nulla. Un esempio concreto di questa situazione è la ricerca sulla materia oscura. Sappiamo che c’è, ma non sappiamo molto piú di questo. Allora cominciamo a fare misure per determinarne la densità e la distribuzione per cercare di capirci qualcosa, anche se è possibile che le nostre misure siano affette da errori sistematici dovuti, per esempio, all’incapacità di rilevare certi effetti o alla scarsa sensibilità dei nostri strumenti o ancora alla non conoscenza di fenomeni ancora da scoprire. È del tutto ovvio che la nostra conoscenza della materia oscura sarà del tutto parziale, ma se non cominciamo a “mapparla” non ne sapremo mai nulla.

Lo stesso sta avvenendo per quanto riguarda la diffusione del COVID19. Di questa malattia sappiamo molto poco. È la prima volta che abbiamo a che fare con questo virus quindi non possiamo sapere come si comporta. La conoscenza si acquisisce man mano che se ne studiano gli effetti. Tutti ricorderanno, per esempio, che la prima misura adottata fu quella di isolare i malati con sintomi. Nessuno, infatti, poteva prevedere che la malattia potesse essere trasmessa anche dagli asintomatici. S’impara dall’esperienza. Quindi l’unica cosa che possiamo fare è osservare i dati e cercare di capire se questi ci dicono qualcosa.

I dati della protezione civile finora ci hanno detto che il numero di malati, apparentemente, fluttua moltissimo di giorno in giorno. Tali fluttuazioni non sono certamente ascrivibili alla natura statistica della misura. Ci sono certamente importanti effetti sistematici (alcune volte mancano i dati di qualche regione o provincia, altre volte a questi dati si sommano quelli dei giorni precedenti a causa di ritardi, etc.). Questo genere di fenomeni si tiene sotto controllo aggregando i dati su piú giorni: cosa che ho iniziato a fare da un po’.

I dati (per esempio quelli sulla mortalità) ci dicono che molto probabilmente il numero di infetti è fortemente sottostimato. C’è chi dice persino di un fattore 10. Confrontando la mortalità osservata in zone piú sotto controllo, dove la mortalità appare oscillare tra l’1% e il 3%, a me sembra ragionevole affermare che noi stiamo tracciando tra un terzo e un decimo della popolazione effettivamente infettata dal virus. È evidente che la gran parte della popolazione dev’essere asintomatica, altrimenti l’avremmo individuata come malata.

Ma c’importa davvero sapere quanti sono gli infetti? Dipende. Dipende da quel che vogliamo fare. Se vogliamo capire come funziona la trasmissione del virus, quali effetti provoca e in che misura, naturalmente sí. Questa però non è materia per fisici, quindi personalmente non me ne curo.

Io tengo sotto controllo la diffusione dell’infezione dal punto di vista degli effetti sulle persone e cerco di capire se le strategie di contenimento stanno funzionando e in che misura. Cerco anche di predire, per quanto possibile, l’evoluzione dell’epidemia. Per far questo non ho bisogno di avere l’informazione completa. Anche conoscendo una frazione dei reali infetti possono seguire la malattia, purché tale frazione si mantenga costante nei limiti delle fluttuazioni statistiche che ovviamente possono verificarsi quando si analizza un campione dell’intera popolazione.

Un’eventuale cambio di strategia, da questo punto di vista, sarebbe fatale. Un significativo aumento dei tamponi, per esempio, modificherebbe la struttura del campione e i dati dei giorni precedenti non si potrebbero confrontare con quelli nuovi.

Che il dato fornito dalla protezione civile, benché parziale, sia significativo, ce lo dice il fatto che i grafici che rappresentano l’evoluzione della malattia appaiono ragionevolmente compatibili tra loro di giorno in giorno. Nel grafico sotto, per esempio, dove i dati non sono neanche aggregati su piú giorni, non ci sono salti evidenti e i punti sperimentali si distribuiscono lungo una curva in modo ragionevolmente continuo.

Ovviamente i dati che appaiono piú stabili sono quelli la cui statistica è maggiore, anche se affetti da errori sistematici piú grandi, come nel caso degli infetti, oppure quelli per i quali la statistica è piú bassa, ma sono meno soggetti a interpretazioni (come i morti). Categorie come “ospedalizzati”, “in isolamento”, “guariti”, ad esempio, sono soggette a valutazione da parte dei medici e questo introduce dei bias che possono far fluttuare molto i dati di giorno in giorno.

Dall’analisi che faccio quotidianamente per predire il picco si evince che la data in cui questo sarà raggiunto si è spostata sempre piú in là col passare del tempo. Questo è del tutto ragionevole perché la crescita dei casi rallenta man mano che si assumono misure di contenimento via via piú efficaci. L’incapacità di predire con largo anticipo si può leggere come una buona notizia: le misure di contenimento tendono a spostare il picco a destra (ovviamente, abbassandolo).

Ecco perché fino a che i dati che utilizzo non presenteranno evidenti patologie continuerò ad usarli per le mie analisi, incurante del fatto che siano affetti da (anche grossolani) errori di valutazione: consistency is more important than truth.

Anche il modello adottato per descriverli dev’essere mantenuto costante, almeno fino a quando non sarà dimostrato essere inadeguato. Sono praticamente certo che nessuno dei modelli matematici piú in uso sia corretto. Tutti i modelli, infatti, partono da assunzioni molto semplici che chiaramente non rispecchiano la realtà. Rappresentare i dati con una funzione logistica certamente non è corretto, ma fino a quando sarà possibile farlo, mantenere questo modello permetterà di confrontare i dati acquisiti finora con i nuovi. Un cambio di modello, allo stato attuale, non è giustificato, anche tenendo conto del fatto che i parametri della curva che stiamo osservando in Italia sono del tutto analoghi a quelli osservati in altri Paesi (la Cina in primis).

Molti fisici tendono a valutare l’affidabilità delle proprie analisi sulla base di elementi oggettivi, come il cosiddetto chi-quadro del fit. Questi elementi si basano su una teoria della probabilità che tuttavia presenta importanti problemi di natura, diciamo cosí, filosofica. Bayes insegna che l’unica maniera corretta di stimare una probabilità è soggettiva. Una stima ragionevole di questa si può dare soltanto se si tiene conto di tutta una serie d’informazioni che possono non essere parte integrante del quadro matematico di riferimento. Per esempio, tutti sanno che lanciando un dado la probabilità di fare “4” è 1/6. Ma se dopo 1000 lanci osservo che il punteggio “4” è uscito 230 volte (quando il numero atteso è 170) la probabilità di vincere puntando sul “4” è maggiore semplicemente perché, molto probabilmente, il dado è stato realizzato in modo tale da favorire questo punteggio (intenzionalmente o meno non ha importanza).

Non do quindi troppo credito a modelli che si adattano meglio ai dati sperimentali da un punto di vista probabilistico, se non ho elementi ulteriori che mi fanno propendere verso una descrizione diversa da quella che uso, che non ha alcuna validità di principio, ma si fonda esclusivamente sull’osservazione sperimentale che essa descrive ragionevolmente bene i dati sperimentali, da un punto di vista puramente fenomenologico. I modelli alternativi alla curva logistica non sono migliori da un punto di vista di principio perché non aggiungono ipotesi ulteriori sulla diffusione della malattia supportate da evidenze sperimentali e spesso forniscono previsioni che non sono in linea con quanto osservato in altri contesti. Se lo sono, invece, non c’è ragione di preferirli ad altri.

Un pensiero riguardo “Consistency is more important

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo di WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione /  Modifica )

Google photo

Stai commentando usando il tuo account Google. Chiudi sessione /  Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione /  Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione /  Modifica )

Connessione a %s...