L’AI e il Machine learning sono diventati uno strumento essenziale per restare competitivi nell’era dell’informazione e il loro potenziale per generare insight da grandi quantità di dati è enorme. La maggior parte degli algoritmi di AI si basa sul concetto di correlazione. In alcuni contesti, però, più che la correlazione tra variabili, si è interessati a studiarne la causalità, ovvero come il variare di una grandezza causa un effetto su un’altra. Questo tipo di domande è di fondamentale importanza in diversi ambiti, ad esempio nel marketing e nelle Life sciences.
Immaginiamo ad esempio un trial clinico con l’obiettivo di stimare e quantificare l’effetto di un nuovo farmaco sulla risposta clinica di un paziente a una malattia, per esempio un tumore, in funzione delle caratteristiche del paziente stesso. Un’analisi classica porterebbe a chiedersi se esiste una correlazione tra somministrazione di farmaco e incidenza della patologia. Ma questo non basta, in quanto si è interessati a capire perché e da che fattori è causata questa variazione di incidenza.
Indice degli argomenti:
Cos’è la Causal inference
La Causal inference è un ramo della statistica che mira a comprendere le relazioni tra le variabili in termini di causa ed effetto. Questi metodi sono studiati da diverso tempo, soprattutto nel campo dell’Econometria, ma negli ultimi anni hanno guadagnato popolarità nella comunità del Machine Learning come mezzo per sfruttare i dati per valutare e quantificare se un particolare trattamento o intervento ha causato un risultato specifico.
Terminologia
Entriamo nel merito introducendo qualche elemento di terminologia specifica usata negli studi di causalità, ed utilizzando l’esempio del clinical trial per facilitarne la comprensione:
- Unità: singolo individuo partecipante allo studio, il singolo paziente.
- Trattamento: variabile che rappresenta l’intervento o il cambiamento che viene applicato nello studio, di cui si vuole stimare e quantificare l’impatto. Nel caso del trial clinico è il farmaco, che può essere somministrato o non somministrato (variabile binaria 1/0), oppure può essere somministrato in diverse dosi (trattamento come variabile continua).
- Covariate: variabili misurate nello studio, proprie di ciascuna unità, indipendenti dal trattamento, che possono influenzare il risultato dello studio. In questo esempio possono essere caratteristiche del paziente, come sesso, età, grandezze cliniche di interesse come BMI, gruppo sanguigno, presenza di diabete.
- Confondenti: variabili che possono influenzare sia il trattamento che il risultato dello studio. Come il nome suggerisce, possono confondere la relazione causale tra il trattamento e il risultato dello studio, per cui devono essere individuate e trattate di conseguenza. Nell’ambito clinico, possono essere ad esempio la concomitanza di altre malattie che possono influenzare l’incidenza del tumore in esame. Sono variabili che hanno un effetto sull’outcome, ma non sull’efficacia del trattamento.
- Effetto: questo è il risultato dello studio che viene influenzato dal trattamento. L’effetto può essere positivo, negativo o neutro a seconda dello studio. Nel caso d’esempio può essere un miglioramento, peggioramento o non variabilità della condizione del tumore.
Il modello Rubin
Diversi approcci al problema della causalità sono stati proposti nel tempo. Il modello causale di Rubin è un framework per analisi di causalità che è stato sviluppato da Donald Rubin negli anni ’70. Si basa sull’idea di potential outcome.
Volendo studiare l’effetto di un trattamento su un gruppo di individui, il metodo più semplice sarebbe valutare l’effetto su ognuno in presenza e in assenza di trattamento, e misurarne la differenza. Questo nella realtà non può accadere, in quanto il trattamento viene somministrato oppure no. I potential outcome sono i diversi risultati che si sarebbero verificati se un particolare trattamento fosse stato applicato ad un individuo. È quindi impossibile studiare l’effetto a livello di singola unità (problema fondamentale della Causal inference), per cui si tenta di studiarlo a livello aggregato, come Average Treatment Effect, assegnando il trattamento ad alcune unità e non ad altre e valutando la differenza tra le due popolazioni.
L’assegnazione del trattamento è un altro elemento cruciale che incide fortemente sui risultati, in quanto può essere soggetto a bias e confondenti. Per eliminarli si tende a selezionare in modo “random” un sottogruppo della popolazione a cui assegnare il trattamento, in un cosiddetto Randomized experiment. Questa pratica, però, non sempre può essere effettuata per problemi di costo, etici, di fattibilità o perché lo studio è retrospettivo. In questi casi, chiamati Observational studies, dove non si ha controllo sulla popolazione affetta dal trattamento, viene introdotto dal modello di Rubin il concetto di “propensity score” per stimare l’effetto causale del trattamento o intervento.
Il propensity score è la probabilità di ricevere il trattamento, data una serie di covariate. In altre parole, rappresenta la probabilità che un individuo abbia ricevuto il trattamento o l’intervento dato il suo profilo di covariate. Utilizzando il propensity score, il modello Rubin può controllare per le differenze tra i gruppi di trattamento e di controllo e stimare l’effetto causale del trattamento.
Per quanto molto utile, alla base del modello di Rubin esistono assunzioni teoriche sul processo di generazione dei dati molto forti, che spesso ne limitano l’uso.
Il ruolo del Machine learning
Il Machine learning può venire in aiuto in queste situazioni, anche se gli algoritmi di Machine learning tradizionali sono progettati per trovare pattern e correlazioni nei dati, e fare previsioni basate su questi pattern. Tuttavia, ciò non basta per stabilire un legame di causalità, in quanto, come spesso viene ripetuto in questo ambito, ‘correlazione non implica causalità’.
Sono stati sviluppati approcci che però permettono questo genere di studi, ad esempio quello del Double Machine Learning.
Double Machine Learning
Il framework del Double Machine Learning (DML) è una metodologia di inferenza causale che combina tecniche di Machine Learning (ML) e di econometria per stimare l’effetto causale di un trattamento su un outcome.
Il DML utilizza tre modelli di Machine Learning: due modelli vengono utilizzati per stimare il bias di assegnazione del trattamento, ovvero la probabilità di assegnazione del trattamento ad un soggetto sulla base di covariate e confondenti, e l’outcome bias, ovvero l’effetto di confondenti e covariate diretto sull’outcome (e non sull’efficacia del trattamento). Il terzo modello viene utilizzato per stimare la funzione di predizione dell’outcome, ovvero la relazione tra il trattamento, le variabili di confondimento e l’outcome.
Può essere diviso in tre fasi:
- Fase di preparazione dei dati: in questa fase vengono selezionate le variabili confondenti, le covariate rilevanti e viene creato un dataset bilanciato, ovvero un dataset in cui le distribuzioni delle variabili tra campione e controllo siano il più simile possibile. Questa è la fase più importante, in quanto spesso definire tutti i possibili confondenti risulta complesso.
- Fase di stima dei bias: in questa fase vengono stimati i possibili bias con modelli di machine learning, spesso usati modelli di regressione tipo LASSO.
- Fase di inferenza causale: viene stimato l’Average Treatment Effect (ATE) tenendo conto anche dei bias stimati nella fase precedente, permettendo una quantificazione dell’effetto indipendente da questi.
Questo approccio è particolarmente utile perché consente di controllare in modo accurato per le variabili confondenti e le interazioni tra di esse. Inoltre, il DML è flessibile e può essere utilizzato con diversi modelli di Machine Learning, da regressioni classiche, a modelli ad albero e reti neurali, e con diversi tipi di outcome, come variabili continue o binarie.
Prospettive future
La Causal inference è una disciplina in evoluzione e le sue applicazioni stanno crescendo rapidamente. In futuro, ci si aspetta che sia sempre più utilizzata per prendere decisioni in vari campi, tra cui la sanità, l’economia e l’ambiente. Soprattutto in ambito clinico, le potenzialità sono enormi: studiare l’effetto di nuovi farmaci, valutare ipotesi di interventi chirurgici sulla base delle caratteristiche del singolo paziente, studiare in anticipo l’impatto che una campagna di screening e prevenzione può avere sull’incidenza di una particolare malattia. Le potenzialità sono innumerevoli, anche se ci sono alcune sfide da affrontare, come la raccolta di dati di alta qualità e affidabilità, che sono sempre alla base del raggiungimento di buoni risultati nell’ambito AI.
Analisi di causalità tra due elementi: il ruolo dell’AI nelle Life sciences – AI4Business: Analisi di causalità tra due elementi: il ruolo dell’AI nelle Life sciences