Google N-Grams: la conoscenza umana in punta di click ?


Google ha recentissimamente annunciato due iniziative che porteranno alla diffusione della cultura al livello planetario. La prima è Google books, già in cantiere dagli albori dell’azienda americana, quando i suoi fondatori Sergey Brin and Larry Page si occupavano proprio di un motore di ricerca da usare per ricercare contenuti in una libreria digitale.

Con Google, oggi è possibile ricercare all’interno di una libreria di oltre tre milioni di titoli. Potete provare voi stessi, a questo link. Siete curiosi, ad esempio di leggere libri scritti da Einstein e tradotti in italiano ? Niente di più facile, un click e non avete altro che destreggiarvi tra le decine di migliaia di pagine che soddisfano la vostra ricerca (alcuni titoli sono scaricabili gratuitamente, mentre altri sono a pagamento).

Va da sé che avere la possibilità di ricercare i termini all’interno di una biblioteca praticamente infinita non è da poco. Se ciascun volume fosse alto anche solo un centimetro, tre milioni di testi occuperebbero una lunghezza lineare di 30 km, più o meno la distanza tra Riccione e Pesaro. In realtà, la base di libri digitalizzati da Google conta un numero ben maggiore, ovvero circa 15 milioni di titoli dal 2004. Ma i creativi dell’azienda californiana hanno avuto un’idea ancor più brillante: rendere disponibili le statistiche di frequenza dei termini contenuti nel campione di circa 500 miliardi di parole in cinese, inglese, tedesco, francese, russo e spagnolo attraverso un sito web.

Cosa vuol dire ? Che attraverso il sito di google è possibile utilizzare il nuovo strumento N-gram Viewer per analizzare la frequenza d’uso di una sequenza di parole nell’arco di tempo che va tra il 1500 ed oggi. Con questa query, ad esempio, è possibile scoprire che il termine “astronomia” (in inglese) è citato maggiormente in testi risalenti alla prima metà del 1600, data coincidente con la vita di Galileo Galilei, per poi subire un brusco calo di frequenza fino alla fine del XVIII secolo, per poi risorgere nei secoli successivi.

Se si ricerca il termine telegrafia, tecnica nata e morta nell’arco del secolo scorso, si ottiene una vera e propria radiografia di questo fenomeno. Così come avviene per la teoria della relatività, presentata da Einstein nel 1905. Data l’estensione del database di testi ci sono ovviamente errori, come si evidenzia cercando termini tecnologici moderni, ma questi possono essere facilmente filtrati mediante un attento lavoro di analisi dei dati.

Il potenziale di un’applicazione di questo genere è davvero notevole, non solo per ricerche di tipo sociali ed umanistiche, ma perché consentirà ai ricercatori di tutto il mondo di fornire una base di testi, in gergo corpus, per l’elaborazione del linguaggio naturale e l’intelligenza artificiale, nonché  la definizione di nuovi modelli matematici per insegnare alle macchine a comprendere il linguaggio umano.

Le macchine sono infatti in grado di comprendere il nostro linguaggio risolvendone in modo relativamente efficace le intrinsiche ambiguità, mediante modelli di valutazione puramente statistici e cioè basati sull’analisi di frequenza e mutua occorrenza di termini.

Ci occuperemo di questi modelli in seguito. Per ora, ci gustiamo Google N-Gram Viewer per ripercorrere la storia degli ultimi 500 anni attraverso le parole che li hanno maggiormente caratterizzati.

Annunci
Questa voce è stata pubblicata in Scienza oggi e contrassegnata con , , , , , , , . Contrassegna il permalink.

Una risposta a Google N-Grams: la conoscenza umana in punta di click ?

  1. Temitope.A ha detto:

    Google, google e ancora google. Tra vent’anni quando nasceranno ai bambini verrà assegnato un account google già in ospedale. 😀

    Ma c’è da da dire che fa molto.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...