La qualità dei dati è un requisito fondamentale per ottimizzarne la raccolta e l’analisi. Oltre che la successiva esplorazione e interpretazione delle informazioni, nascoste nei Big Data. Un corretto processo di data quality si traduce in aumento dell’efficacia dei processi decisionali. I dati “puliti” sono la base per sviluppare progetti efficienti e solidi, in grado di supportare appieno le strategie data-driven.
La scelta e l’utilizzo di opportune metriche per la definizione e la misurazione della qualità dei dati è fondamentale per supportare correttamente le scelte di business.
Completezza, accuratezza, tempestività, coerenza, integrità e conformità sono solo alcuni esempi di metriche operative utilizzabili, ma che per loro stessa natura sono molto manuali e quindi suscettibili di errori sostanziali.
L’apprendimento automatico è divenuto l’approccio dominante e sta cambiando la metodologia di implementazione della Data Quality.
La crescita del ML può influire in modo considerevole sulle metodologie utilizzate per verificare la qualità dei dati. Parte dei processi di standardizzazione, come la corrispondenza dei dati, potrebbe essere automatizzata configurando un modello di ML in modo che impari a riconoscere e prevedere le corrispondenze come operazione di routine. Più dati vengono forniti al modello, migliori saranno le prestazioni dell’algoritmo ML e più accurati i risultati; per questo motivo, il ML risulta più scalabile rispetto agli approcci tradizionali.
Garantire dati attendibili e di alta qualità allo scopo di ridurre i compiti manuali legati alle pratiche di DQ, diminuendo l’intervento umano a favore dell’automatizzazione dei flussi di lavoro all’interno dei processi con un conseguente risparmio di tempo e costi, sono alcune degli effetti derivanti dall’utilizzo di tecnologie ML e AI.
È necessario quindi, oltre ad un efficace strumento di Data Quality in grado di verificare attraverso l’esecuzione di controlli, la rispondenza dei dati ad una serie di requisiti tecnici e di business, dotarsi di un tool di Data Governance, cioè di un sistema di gestione dei metadati, che gestisca una “carta di identità” delle informazioni aziendali, comprendente tutte le entità tecniche e di business.