Dati sintetici: una nuova sfida nel panorama della gestione dei dati
di Michele Iurillo (michele.iurillo@synergo.es)
I dati sintetici sono dati generati artificialmente, cioè informazioni che non provengono da osservazioni dirette dell’ambiente reale, ma sono ottenute con tecniche computazionali avanzate. Questi dati sono generati da algoritmi statistici e di apprendimento automatico, in grado di creare distribuzioni e caratteristiche simili a quelle osservate nei set di dati reali, preservando i modelli statistici chiave senza contenere informazioni sensibili o identificabili.
Lo scopo principale dei dati sintetici è quello di servire allo sviluppo, al test e alla convalida dei modelli, soprattutto in ambienti in cui l’accesso ai dati reali è limitato o ristretto per motivi di privacy o di sicurezza. Sono spesso utilizzati nella validazione di modelli matematici e nell’addestramento di reti neurali profonde per applicazioni di deep learning. Utilizzando questi dati, i modelli possono apprendere modelli e relazioni complesse senza essere esposti a dati reali, il che facilita la protezione della privacy e l’accelerazione dei processi di sviluppo e test nei sistemi di intelligenza artificiale.
Il vantaggio dell’uso di dati sintetici è che riduce le restrizioni nell’utilizzo di dati regolamentati o sensibili. Inoltre, crea esigenze di dati in base a requisiti specifici che non possono essere soddisfatti con i dati autentici. I set di dati sintetici sono spesso generati per l’assicurazione della qualità e il test del software, ma possono essere l’inizio di nuovi scenari quando si osserva una realtà che non esiste realmente.
Lo svantaggio dei dati sintetici è rappresentato dalle incongruenze che si verificano quando si cerca di riprodurre la complessità dei dati originali e dalla loro incapacità di sostituire direttamente i dati reali, in quanto sono ancora necessari dati accurati per ottenere risultati utili. Tuttavia, possono essere un formidabile punto di partenza per le prove di concetto degli algoritmi, anche se non bisogna dimenticare la loro natura “irreale”. Gli scienziati dei dati devono fare attenzione a non trarre conclusioni per evitare i tipi di pregiudizi del “campionamento”.
Dati reali vs Dati sintetici
I dati reali vengono raccolti o misurati nel mondo reale. Questi dati vengono creati ogni volta che una persona utilizza uno smartphone, un laptop o un computer, indossa uno smartwatch, visita un sito web o effettua un acquisto online.
I dati sintetici, invece, sono generati in ambienti digitali. Questi dati sono fabbricati in modo tale da imitare con successo i dati reali in termini di proprietà di base, ad eccezione della parte che non è stata ottenuta da alcun evento del mondo reale.
Grazie alle varie tecniche di generazione di dati sintetici, i dati di addestramento necessari per i modelli di apprendimento automatico sono facilmente disponibili, rendendo i dati sintetici un’alternativa molto promettente ai dati reali. Tuttavia, non si può affermare categoricamente che i dati sintetici possano fornire risposte a tutti i problemi del mondo reale. Ciò non pregiudica gli importanti vantaggi offerti dai dati sintetici.
Sfide e limiti dell’utilizzo di dati sintetici
Sebbene i dati sintetici offrono diversi vantaggi alle aziende con iniziative di data science, presentano anche alcuni limiti:
Affidabilità dei dati: È risaputo che qualsiasi modello di machine learning/deep learning è valido solo quanto la sua fonte di dati. In questo contesto, la qualità dei dati sintetici è significativamente associata alla qualità dei dati di input e alla qualità del modello utilizzato per generare i dati. È importante assicurarsi che non ci siano distorsioni nei dati di partenza, perché altrimenti potrebbero riflettersi nei dati sintetici. Inoltre, la qualità dei dati deve essere convalidata e verificata prima di utilizzarli per qualsiasi previsione.
Richiede competenza, tempo e impegno: sebbene i dati sintetici possano essere più facili ed economici da produrre rispetto ai dati reali, richiedono un certo livello di competenza, tempo e impegno.
Accettazione da parte degli utenti: I dati sintetici sono una nozione nuova e le persone che non ne hanno visto i vantaggi potrebbero non essere disposte a fidarsi delle previsioni basate su di essi. Ciò significa che per ottenere una più ampia accettazione da parte degli utenti è necessario innanzitutto aumentare la consapevolezza del valore dei dati sintetici.
Replica degli outlier: i dati sintetici possono solo assomigliare ai dati reali, ma non possono essere un duplicato esatto. Di conseguenza, i dati sintetici potrebbero non coprire alcuni outlier presenti nei dati reali. Gli outlier nei dati possono essere più importanti dei dati normali.
Verifica della qualità e controllo dei risultati: l’obiettivo della creazione di dati sintetici è quello di imitare i dati del mondo reale. Il controllo manuale dei dati diventa fondamentale. Nel caso di insiemi di dati complessi generati automaticamente da algoritmi, è indispensabile garantire la correttezza dei dati prima di implementarli in modelli di apprendimento automatico/deep learning.
Sfide e limiti dell’utilizzo di dati sintetici
Ecco alcuni esempi reali di utilizzo attivo dei dati sintetici.
Sanità: le organizzazioni sanitarie utilizzano dati sintetici per creare modelli e una serie di test sui set di dati per le condizioni che non dispongono di dati reali. Nel campo dell’imaging medico, i dati sintetici vengono utilizzati per addestrare i modelli di intelligenza artificiale, garantendo al contempo la privacy dei pazienti. Inoltre, si utilizzano dati sintetici per prevedere e predire le tendenze delle malattie.
Agricoltura: i dati sintetici sono utili nelle applicazioni di visione computerizzata che aiutano a prevedere i rendimenti delle colture, a rilevare le malattie delle colture, a identificare i semi/frutti, i modelli di crescita delle piante, ecc.
Previsione dei disastri e gestione del rischio: Le organizzazioni governative utilizzano i dati sintetici per prevedere le calamità naturali per la prevenzione dei disastri e la riduzione dei rischi.
Automotive e robotica: le aziende utilizzano dati sintetici per simulare e addestrare auto/veicoli autonomi, droni o robot.
Finanza: le banche e le istituzioni finanziarie possono identificare e prevenire meglio le frodi online, in quanto i data scientist possono progettare e sviluppare nuovi metodi efficaci di rilevamento delle frodi utilizzando dati sintetici.
E-commerce: le aziende beneficiano di una gestione efficiente del magazzino e dell’inventario, nonché di una migliore esperienza di acquisto online per i clienti, grazie a modelli avanzati di apprendimento automatico addestrati su dati sintetici.
Produzione: Le aziende traggono vantaggio dai dati sintetici per la manutenzione predittiva e il controllo qualità.
Conclusioni
I dati sintetici aprono nuove possibilità, a patto che si capisca che non sono reali e che il loro utilizzo deve essere orientato soprattutto all’addestramento dei modelli. È molto pericoloso pensare che una gestione di questi dati possa essere sufficiente per addestrare i modelli, dovremo sempre confrontarci con dati reali e vedere che il modello funziona perché in questo modo eviteremo i pregiudizi.
- Potenziale per lo sviluppo dell’IA e dell’apprendimento automatico: i dati sintetici si sono affermati come strumento fondamentale per lo sviluppo e il miglioramento dei modelli di apprendimento automatico, consentendo di addestrare e convalidare gli algoritmi in ambienti controllati e ricchi di dati, anche quando i dati reali sono scarsi o limitati.
- Protezione della privacy e della sicurezza dei dati: Non contenendo informazioni reali, i dati sintetici consentono di creare rappresentazioni statistiche di alto valore per i test e lo sviluppo senza compromettere la privacy delle persone o la sicurezza delle informazioni riservate. Questo apre notevoli opportunità per i settori sensibili, come quello sanitario e finanziario, dove la conformità alle normative è fondamentale.
- Ottimizzazione delle risorse e riduzione dei costi: La generazione di dati sintetici può essere più economica ed efficiente della raccolta di dati reali, soprattutto nei settori in cui l’accesso a dati di qualità è limitato. Eliminando la necessità di raccogliere dati costosi o difficili da ottenere, le aziende possono ottimizzare le proprie risorse e ridurre i costi associati alla gestione e all’archiviazione dei dati reali.
- Sfide nella rappresentatività e nell’accuratezza dei dati generati: sebbene i dati sintetici offrano molteplici vantaggi, il loro utilizzo presenta delle sfide. La fedeltà con cui vengono rappresentati i modelli di dati reali è fondamentale, poiché qualsiasi deviazione potrebbe influire sull’accuratezza e sull’applicabilità dei modelli addestrati. Ciò sottolinea l’importanza di utilizzare algoritmi avanzati e un monitoraggio rigoroso nella loro generazione.
- Impatto sulla governance e sulla qualità dei dati: L’inclusione di dati sintetici nella gestione dei dati richiede una revisione delle politiche di governance e degli standard di qualità. Le organizzazioni devono stabilire criteri chiari per la differenziazione, la gestione e l’audit di questi dati, garantendo che mantengano la loro utilità ed evitino distorsioni indesiderate nei modelli analitici e predittivi.
L’uso di dati sintetici nella gestione dei dati rappresenta un progresso significativo, soprattutto per i settori altamente regolamentati con accesso limitato alle informazioni reali. Tuttavia, la sua adozione richiede un attento approccio tecnico ed etico per massimizzarne i benefici e minimizzare i rischi di distorsione, garantendone la corretta integrazione nei sistemi di intelligenza artificiale e apprendimento automatico.
Affronteremo questo argomento in una delle tavole rotonde del Data Management Summit 2025.
Articoli di ispirazione: https://www.turing.com/kb/synthetic-data-generation-techniques#what-is-synthetic-data?
https://www.ibm.com/topics/synthetic-data
https://blogs.manageengine.com/espanol/2023/03/15/synthetic-data-para-que-sirve-html.html