L’amore (per il libro) ai tempi dei big data

google books

Pare che l’epoca in cui ci troviamo sia detta “dei Big Data”, cioè siamo in grado, attraverso la rete e i computer, di raccogliere e analizzare una stratosferica quantità di dati. Questi dati possono rappresentare un sacco di cose: dal like che hai messo al post di “Buongiornissimo” di un cinquantenne, fino ad oltre ventiquattro secoli di produzione letteraria. Avete mai sognato di possedere una biblioteca che contenesse ogni singolo volume mai scritto dai grandi della letteratura mondiale? Be’, negli ultimi anni sono stati digitalizzati, rendendoli accessibili e lavorabili da ogni parte del globo, circa 500 milioni di terabyte [1] di manoscritti, incunaboli, cinquecentine, fino alla bibliografia completa di Fabio Volo. Si tratta di una quantità di dati talmente grande, che per archiviarli tutti servirebbero tanti iMac affiancati, da fare 6 volte e mezzo il giro della Terra lungo l’Equatore.

Internet-Archive

Per fare qualche esempio, compagnie private come la ProQuest e la British Library hanno rilasciato, dietro compenso, milioni di libri, creando dei corpora organizzati cronologicamente: i primi formati da opere scannerizzate, i secondi in formato Kindle. A queste raccolte private, si affiancano quelle con accesso libero e gratuito: vale la pena di ricordare l’Internet Archive (400 autori per 40 lingue), l’italianissima Liber Liber (circa 3500 libri) e l’enorme Google Books, che, con i suoi 5 miliardi di testi della natura più svariata, ha il monopolio della digitalizzazione internazionale. Si tratta di una quantità di materiale enorme (“big data”, appunto), che solo noi umanisti possiamo analizzare, indicizzare, studiare.

liber liber

Un progetto molto affascinante, in questo senso, è quello della biblioteca digitaleDigilibLT”, che raccoglie e distribuisce, sotto licenza Creative Commons, opere del latino tardo in ebook: lo studioso, quindi, in maniera totalmente gratuita, può crearsi la propria biblioteca personale per fare ricerca fra i vari testi e fra frammenti di testo usando software come Calibre o iBook.

La DigilibLT nasce come «un ideale completamento e continuazione della raccolta di testi latini nota come PHI cdrom 5.3. Tale raccolta contiene tutti i testi latini dalle origini fino al I/II sec. d.C.» [2] Si tratta di un progetto che potrà essere molto utile per gli studi umanistici, ed è curato, come la maggior parte dei progetti di Informatica Umanistica, da più università: è in corso presso il Dipartimento di Studi Umanistici dell’Università degli Studi del Piemonte Orientale, con la partecipazione del Dipartimento di Studi Umanistici dell’Università degli Studi di Torino e con l’aiuto di docenti delle università di Salamanca, Durham e di Roma Tor Vergata.

Il testo delle opere è ricostruito attraverso edizioni critiche giudicate valide da un comitato scientifico, inoltre la sua scansione viene revisionata due volte: i libri non sono semplici «file da scaricare, ma vere e proprie edizioni dei testi».[2] Testi che vengono codificati (in TEI/XML), in modo che l’utente finale possa fare una ricerca all’interno del testo o fra vari testi. Vengono quindi resi pubblici con licenza Creative Commons in cinque differenti formati: codice sorgente TEI/XML; “txt” (il classico documento di testo semplice); PDF (per la stampa) e ePub (l’ebook vero e proprio). Questi formati rispecchiano ognuno uno scopo o una preferenza dello studioso: il TEI/XML e il txt per la ricerca, il PDF per coloro i quali preferiscono la lettura a stampa e l’ePub per quelli che non disdegnano la lettura digitale. La licenza aperta di tipo «Creative Commons – Attribuzione – Non Commerciale – Condividi allo stesso modo» rende il testo disponibile a chiunque in maniera gratuita. [3]

liberliber-libri

Gli sviluppi futuri di questo progetto sembrano mescolarsi ai sogni: creare una grande «biblioteca digitale del Latino». Integrando questo lavoro (che va dal I/II secolo d.C. alla Tarda Antichità) con quello del PHI (che, invece, va dalle origini della lingua latina al I/II secolo d.C.), si può creare un’unica grande biblioteca di tutte le opere che conserviamo della classicità, fruibili gratuitamente online da qualsiasi dispositivo/software. Questa prospettiva si basa su una ragione prettamente pratica: avere a disposizione l’opera da consultare e studiare è fondamentale per l’umanista; rendere l’operazione della reperibilità più veloce, e a prezzi nulli, è quanto di meglio si possa sperare.

digiliblt

[1] F. Perazzini, Oltre i confini del testo: le Digital Humanities tra scienza e opportunità, in C. Zong (a c. di), «Per una storia dell’informatica umanistica», Sapienza Università Editrice, Roma, 2012.

[2] M. Lanna, Letteratura latina e ebook. Una prospettiva della biblioteca digitale digilibLT, in F. Ciotti (a c. di), «Digital Humanities: progetti italiani ed esperienze di convergenza multidisciplinare», Sapienza Università Editrice, Roma, 2014.

[3] A proposito di licenze aperte e gratuità, personalmente ho apprezzato tantissimo la scelta di utilizzare, per la creazione della piattaforma, software FOSS – acronimo per Software Libero e Aperto (Free and Open Source Software) – , in particolare Linux Ubuntu, Apache, Perl e MySQL. È una scelta che lo stesso Lana definisce «di principio»: se vengono usati fondi pubblici, devono essere usati sistemi che garantiscano l’accesso a questi dati a chiunque.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...