Design of Experiment (DoE), cos’è e come può accelerare lo sviluppo di nuove soluzioni industriali

Agosto 30, 2023

La crescita esponenziale dell’interesse e dello sviluppo dell’artificial intelligence (AI) ha permesso negli ultimi anni di realizzare tecniche e algoritmi indispensabili per guidare la ricerca scientifica e lo scale-up dei processi industriali. L’obiettivo principale è quello di accelerare il trasferimento dei risultati raggiunti sperimentalmente verso soluzioni industriali ingegnerizzate, in grado di soddisfare standard di qualità e sicurezza nel rispetto dei vincoli di progettazione. Rispetto alle tecniche tradizionali, l’utilizzo degli algoritmi di machine learning consente di analizzare problemi sempre più complessi, in cui ai vincoli funzionali si possono aggiungere ad esempio, quelli ambientali. Tra gli strumenti più utilizzati e che possono beneficiare dell’utilizzo di tecniche e modelli di AI troviamo il Design of Experiment (DoE), grazie al quale è possibile ottimizzare le campagne di esperimenti e test.

Indice degli argomenti:

Il Design of Experiment: cos’è e da dove nasce

L’importanza del controllo e della selezione dei parametri sperimentali viene proposta per la prima volta da Charles S. Peirce nel 1878 e ripresa in maniera più ampia da Ronald Fischer negli anni ’20 e 30’ del ‘900. Nel corso degli anni poi la definizione e la descrizione matematica del problema si è evoluta per rispondere alla complessità sempre più crescente dei vari settori della ricerca. L’obiettivo principale del DoE è quello di individuare le relazioni esistenti tra una combinazione di variabili in input e misurare il loro effetto sugli output, minimizzando il numero di prove sperimentali da svolgere.

WHITEPAPER

Gartner: l’iperautomazione tra i principali trend tecnologici

.a{fill:#0097b5;} SaaS

.a{fill:#0097b5;} Cloud application

A questa prima fase che viene definita screening, segue una seconda fase di ottimizzazione, in cui si costruisce un modello di previsione, in grado di prevedere con un ridotto margine di incertezza il comportamento del sistema a partire degli input selezionati. La presenza di un modello descrittivo del processo di interesse (digital twin) permette di individuare parametri ottimi che possono massimizzare l’output desiderato.

Come funziona il Design of Experiment

Per ciascuna variabile di input del processo d’interesse è necessario raccogliere i range all’interno dei quali le variabili possono assumere i valori e i vincoli ad esse associati. Ad esempio, nell’ipotesi di modellare un reattore chimico all’interno del quale avvenga una determinata reazione, si potrebbero definire come variabili di input la pressione, la temperatura e la composizione chimica dei reagenti. Mentre pressione e temperatura sono liberi di variare all’interno di range definiti, le concentrazioni dei reagenti potrebbero essere vincolate ad assumere valori all’interno di un particolare range, limitando le scelte possibili delle variabili di input. Agli input controllabili, si aggiungono poi variabili non controllabili, che possono essere misurate ma che non possono essere utilizzate per controllare il processo e ugualmente influenzano le caratteristiche dei prodotti.

Più il problema è complesso, più lo diventa lo spazio delle variabili di input all’interno del quale il DoE deve individuare un numero minimo di prove sperimentali in grado di descrivere correttamente il fenomeno. E così può accadere sia necessario che l’individuazione dei punti sperimentali ottimi venga effettuata non più con metodi statistici ma attraverso la soluzione di un problema di ottimizzazione (e.g. optimal design).

Possibili limiti associati al Design of Experiment

Se è vero che rispetto al processo sperimentale tradizionale il DoE consente di ridurre il numero di prove sperimentali e di conseguenza i tempi e i costi ad esse associate, l’approccio classico al DoE ha alcune principali limitazioni:

i risultati del DoE sono basati sull’assunzione di linearità e indipendenza delle variabili di input;
il costo sperimentale è indipendente dal valore delle variabili di input (e.g. per l’esempio precedente, test eseguiti a temperatura e pressione più alta potrebbero richiedere più tempo di preparazione o maggiori costi energetici);
non è presente una prioritizzazione tra le prove da eseguire all’interno dello stesso gruppo di test;
la modellazione solitamente non tiene conto dell’incertezza sperimentale legata sia ai dati di input che alle misure degli output effettuate;
l’aliasing tra le variabili deve essere definito a priori.

Per questi motivi, nel corso degli anni sono state avanzate possibili soluzioni in grado di modellare con complessità elevata la ricerca ottima dei punti sperimentali.

Dal DoE all’OED

A partire dall’approccio del DoE, l’Optimal Experimental Design (OED) sfrutta non solo la conoscenza che a priori si ha del processo (come avviene per il DoE), ma anche i dati raccolti progressivamente durante la campagna sperimentale. Nel caso in cui infatti siano già stati eseguiti dei test, è possibile sfruttare le informazioni contenute in essi per prioritizzare le successive prove sperimentali. La raccolta di un numero limitato di dati sperimentali permette infatti di costruire un “modello data-driven” che, per quanto approssimato, sia in grado di prevedere l’output del processo. I modelli utilizzati solitamente ricadono all’interno della statistica bayesiana (e.g. Gaussian Process Regressor) grazie ai quali viene modellato non solo l’output ma anche l’incertezza ad esso associato.

La presenza di un modello consente di definire su tutto il dominio delle variabili di input una utility function che descrive il vantaggio (stimato) che possiamo ottenere dallo svolgere una determinata prova sperimentale. La combinazione tra questa funzione e i vincoli che caratterizzano le variabili di input definisce un problema di ottimizzazione relativo alla ricerca di un massimo valore per la utility function. La più semplice funzione che si può immaginare è data dalla combinazione tra l’incertezza associata al modello e l’output previsto, associando a ciascuno un peso differente. La definizione dei pesi permette di prioritizzare il test e la ricerca di nuovi punti sperimentali.

Nell’esempio precedente della reazione chimica, l’interesse principale potrebbe essere quello di modellare al meglio il processo, ma farlo limitatamente alle regioni in cui l’output (e.g. la quantità di prodotto della reazione) è sufficientemente alto. Ci si dovrà dunque preoccupare di inserire all’interno della utility function il valore di output previsto, in modo che siano esplorate le regioni a più alto interesse industriale.

I vantaggi dell’OED

La modellazione del problema di design sperimentale è sicuramente più complessa rispetto al caso classico del DoE ma offre alcuni vantaggi fondamentali:

è possibile prioritizzare le prove sperimentali (o gruppi delle stesse);
l’utility function può essere ampliata, includendo in essa non solo l’incertezza del modello ma anche costi sperimentali che possono dipendere dalle variabili in input (multi objective, e.g. costi di preparazione della prova, consumo energetico, impatto ambientale);
a seconda della fase sperimentale in cui ci si trova, è possibile agire sui pesi delle utility function per esplorare il dominio delle variabili di input (exploration) o concentrare la ricerca in una zona precisa del dominio (exploitation);
l’utilizzo di modelli di AI consente di tenere conto dell’incertezza sperimentale delle osservazioni e dei dati di input (multi-fidelity).

Doe e OED, principali applicazioni

Il DoE e l’OED sono strumenti importanti e in alcuni casi fondamentali per guidare la ricerca scientifica. Entrambi permettono infatti di giustificare la necessità di ulteriori test e di indicare in quale regione del dominio delle variabili vanno eseguiti. All’applicazione a processi industriali e di ricerca, si affianca la possibilità di utilizzare questi strumenti anche per lo studio e l’analisi di simulatori numerici e modelli fisici dei quali è necessario costruire un modello surrogato. In questi casi, l’applicazione dell’OED risulta indispensabile per guidare la scelta dei punti sperimentali da simulare, attivando un processo continuo di apprendimento in cui il modello data-driven e il modello fisico scambiano dati e informazioni (active learning).

Grazie all’evoluzione degli strumenti di AI e ai simulatori numerici è inoltre possibile costruire framework più complessi in cui a seconda dei costi e dei vincoli sperimentali, le prove possono essere eseguite alternativamente in laboratorio o sfruttando un simulatore numerico. In tutti questi casi, l’obiettivo finale rimane quello di costruire un modello di machine learning che rispecchi fedelmente la realtà sperimentale ma che rispetto ai modelli numerici sia più veloce da interrogare.

Conclusioni

Rispetto all’approccio tradizionale, che solitamente prevede diverse fasi – dallo sviluppo di un’ipotesi teorica ai risultati e a eventuali analisi e correzioni a posteriori – il DoE e l’OED sono due nuovi paradigmi statistici volti a massimizzare le informazioni derivanti da dati sperimentali, riducendo notevolmente i tempi. In particolare, sfruttando le potenzialità della data science e degli algoritmi di AI, questi due approcci consentono di accelerare la fase di studio e di comprensione del processo, guidando rapidamente le attività verso le fasi di ottimizzazione e di controllo. Con dei risultati significativi, in particolare per le aziende, ovvero:

riduzione dei tempi di sviluppo
maggiore affidabilità di processo
uso efficiente delle risorse.