Per casi specifici il GDPR (General Data Protection Regulation), la più recente normativa europea in materia di protezione della privacy, prevede anche l'utilizzo di tecniche di pseudonimizzazione e anonimizzazione che permettano di non associare direttamente determinati dataset agli utenti che li hanno forniti. In questo modo, nel caso di violazioni con conseguente Data Breach, viene contenuto il rischio che le informazioni sottratte possano essere utilizzate con finalità illegali recando danno alle potenziali vittime.
Tale accortezza riguarda soprattutto dati particolarmente sensibili come quelli sanitari e bancari, ma qualsiasi azienda potrebbe trovarsi davanti al problema di dover gestire un Data Breach e le conseguenze potrebbero essere anche molto gravi non soltanto in ragione delle sanzioni previste dal regolamento che sono, di base, già molto salate. La Data Anonymization non è però un'operazione semplice e implementare da zero soluzioni a riguardo richiede in genere tempo e risorse.
Amnesia è una soluzione che, pur garantendo una riduzione minima della qualità delle informazioni gestite, consente di effettuare procedure di Data Analysis sui dati anonimizzati senza che questi ultimi siano legati (e ricollegabili) in alcun modo ai dataset di origine.
Come funziona Amnesia
I dataset originali devono essere contenuti in un semplice file di testo (o in un .csv
) nel quale i contenuti possono essere separati utilizzando un qualsiasi tipo di delimitatore, la piattaforma include un wizard di importazione che è in grado di rilevare autonomamente i tipi di dato e di richiedere conferma all'utilizzatore. Vi è anche la possibilità di scegliere quali campi devono essere anonimizzati e quali possono essere ignorati ed esclusi dal processo.
L'anonimizzazione viene effettuata sostituendo valori univoci, o combinazioni univoche di valori, con delle rappresentazioni caratterizzate da un maggior livello di astrazione. Codici di avviamento postale e date di nascita potrebbero essere convertiti, ad esempio, con nomi di città e anni di nascita. Vengono così a crearsi delle regole di conversione riutilizzabili anche per altre sorgenti di dati.
Il sistema è in grado di indicare più metodologie di anonimizzazione e l'utilizzatore non dovrà fare altro che scegliere quella che ritiene più adatta per il proprio progetto. Una volta terminata la conversione sarà possibile effettuare il download dei dati anonimizzati senza che il dataset originale subisca alcuna modifica.
Su PC o direttamente online
Amnesia può essere installato su PC, sono infatti disponibili delle versioni sia per Windows che per Linux. In alternativa è possibile accedere alle sue funzionalità direttamente online, il sito Web ufficiale del servizio mette a disposizione anche dei dataset d'esempio sui quali effettuare dei test.
Nel caso in cui si voglia contribuire direttamente al progetto, o si sia interessati alle modalità scelte per il suo sviluppo, il codice sorgente di Amnesia è disponibile anche tramite il code hosting di GitHub.