11 ottobre 2011

Google Ngram Viewer - 5 milioni di libri per analizzare il nostro genoma culturale

Google ha già digitalizzato 15 milioni di libri.
Ciò rappresenta il 12% di tutti i libri mai pubblicati.
Per analizzare i dati di questo record di libri è stato formato un team di esperti provenienti da Harvard, MIT (Massachusetts Institute of Technology), The American Heritage Dictionary e l'Enciclopedia Britannica.
Dopo aver escluso tutto ciò che non era della più alta qualità, è rimasta da analizzare una raccolta di cinque milioni di libri, 500 miliardi di parole, un testo che, una volta scritto, si estenderebbe da qui alla Luna e indietro - 10 volte; una stringa di caratteri un migliaio di volte più lunga del genoma umano, un vero e proprio frammento del nostro genoma culturale.
Questo metodo di analisi, che osserva i dati dalle opere digitalizzate, si chiama culturomics. E’ un’applicazione di raccolta e analisi dati su scala massiccia per lo studio della cultura umana.
Molte cose sorprendenti emergono da questi 500 miliardi di parole. Una riguarda, ad esempio, chi nutre il sogno di diventare famoso.
Dunque, se vuoi diventarlo presto, nella fase iniziale della tua vita, devi fare l'attore perché la tua fama inizierà a crescere prima dei tuoi trent'anni.
Per fare l'autore di successo, bisogna che aspetti un po' di più ma è facile che salirai molto in alto.
Se vuoi davvero raggiungere la cima, rimanda pazientemente le gratificazioni e, naturalmente, diventa un politico :)
Anche gli scienziati tendono a diventare famosi molto più in avanti con l’età. Biologi e fisici tendono ad essere quasi altrettanto famosi quanto gli attori ...
La cosa grandiosa di culturomics è che tutti possono provarlo, perché tre ragazzi (Jon Orwant, Matt Gray and Will Brockman) hanno codificato una versione del Ngram Viewer per il grande pubblico.

Google Ngram Viewer, culturomics, genoma culturale, libri, studio della cultura umana

Che cos’è Google Ngram Viewer?
E’ uno strumento che permette di ricercare parole e idee in una banca dati di 5 milioni di libri di tutti i secoli.
In questo video Erez Lieberman Aiden e Jean-Baptiste Michel ci mostrano come funziona.




2 commenti:

  1. Yes; and impressive too!
    12 percent of all the books that have ever been published is... a LOT of work!

    RispondiElimina