Dimmi cosa “tweetano” i tuoi amici e ti dirò dove sei, ovvero come ti demolisco la privacy: la ricerca dell’Università di Rochester.


La rivista New Scientist ha pubblicato un articolo su una ricerca del Dott. Adam Sadilek dell’Universià di Rochester (New York) secondo cui è possibile inferire informazioni sensibili sulle persone anche quando queste pongono la massima attenzione alla privacy dei propri dati disponibili online.

Il Dott.Sadilek ha infatti predisposto un sistema per predire la posizione geografica di un individuo con una precisione di 100 metri e con l’85% di accuratezza correlando i tweet degli “amici”, purché geolocalizzati. Cosa significa ? Se i vostri amici pubblicano messaggi su Twitter o su Facebook usando la funzione del GPS del loro telefonino, le loro posizioni geografiche saranno ovviamente utilizzabili. E’ possibile utilizzare queste informazioni per correlarle statisticamente deducendo, inferendo è la parola esatta, la vostra posizione geografica anche se non avete esplicitamente abilitato la funzione GPS del vostro telefonino.

Questa “magia” è posssibile grazie alla scienza dei calcolatori che, unita alla matematica statistica, consente alle macchine non solo di apprendere informazioni e correarle in forma di conoscenza strutturata, ma anche di formulare ipotesi con grande precisione per prevedere … il presente. Lo abbiamo visto con Watson, il supercomputer IBM, che ha dimostrato di saper correlare fatti eterogenei nella propria base di conoscenza digitale e di rispondere ad un quiz televisivo con tanta efficacia da stracciare i concorrenti umani.

Il “segreto” dell’apprendimento al calcolatore e della capacità di correlare fatti ignoti ad elementi noti è tutto nella matematica e nella grande capacità di calcolo delle macchine, in grado di “masticare” un numero enorme di informazioni in pochi secondi, di correlarne le grandezze statistiche e di decidere lo stato della grandezza ignota che ha maggiore probabilità di sussistere.

E’ così che funzionano i moderni filtri antispam della posta elettronica e il software di riconoscimento del volto delle fotocamere digitali. Il modello alla base è sempre lo stesso: le reti bayesiane. Sono parenti molto stretti degli automi a stati finiti, ne abbiamo parlato in un post precedente, dove ogni arco è etichettato con un valore di probablità.

Queste reti probabilistiche consentono al calcolatore di apprendere fatti e correlarli prendendo decisioni spesso estremamente affidabili. Il Dott. Sadilek ha esaminato oltre 4 milioni di tweets, cioé di messaggi inviati su Twitter, nell’area di Losa Angeles e di New York. Il suo team ha scoperto che è sufficiente tracciare la posizione geografica di una persona specifica per un lasso temporale di due settimane e di correlarla con i tweets dei due soli amici più attivi online. Questo set di informazioni (detto training set) viene utilizzato quindi per far apprendere al calcolatore quali sono le correlazioni con maggior probabilità e, con questi dati, predire la posizione geografica dell’individuo con un margine di errore di 100 metri azzeccando la previsione più di 3 volte su 4.

Anche in assenza di training set, quindi di qualsiasi informazione sulla geolocalizzazione della persona cercata, è possibile prevederne la posizione con una accuratezza del 47% correlando le informazioni da due amici, e del 57% usandone nove. Un numero considerevolmente alto, tenendo conto che la maggiorparte di noi ha ben oltre i cento amici. Secondo il Dott. Sadilek è possibile applicare questo processo su larga scala per identificare la posizione geografica di tutti gli utenti su Twitter.

Entusiasmante ed allarmante, indubbiamente. Entusiasmante perché il modello matematico che utilizzano questi algoritmi è relativamente semplice e, come è stato per Watson, dimostra quanto sia importante disporre di conoscenze scientifiche e matematiche per risolvere problemi anche estremamente complessi. I calcolatori sono ovviamente fondamentali in questi casi, ma non ostante i nomi altisonanti “intelligenza artificiale”, “apprendimento automatico”, resta il fatto che non sono le macchine ad essere intelligenti: il segreto è tutto nel modello e nella stupefacente intelligenza dell’uomo.

Segui LidiMatematici su Twitter !

Annunci
Questa voce è stata pubblicata in Scienza oggi e contrassegnata con , , , , , , , , , , . Contrassegna il permalink.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...