Ehi Google, parli italiano?

Google_Assistant_ita

Gli assistenti vocali sono entrati nella vita di tutti i giorni: si occupano dei nostri impegni e delle nostre chiamate, ci leggono le notizie, possono scrivere per noi documenti e messaggi. Quando interrogo il mio Google Assistant ottengo risultati sempre puntuali: «Ehi Google, ricordami di inviare una mail al prof nel pomeriggio», «Ok Google, manda un messaggio WhatsApp a mamma “sto tornando virgola butta la pasta”», «Ehi Google, definisci “esiziale”», «Ok Google, spegni la musica quando arrivo all’università». Quella degli assistenti è la vera svolta “smart” dei nostri dispositivi, molto più delle gesture e delle condivisioni rapide. Secondo una ricerca ben spiegata da AGI, entro il 2021 il 40% degli utenti preferirà utilizzare il proprio assistente vocale, piuttosto che andare in banca, cercare sui siti o utilizzare le app.[2]

La qualità degli assistenti – di cui i più famosi sono Google Assistant (Google), Siri (Apple), Cortana (Microsoft) e Alexa (Amazon) – dipende per lo più dalla tecnologia utilizzata per farli funzionare: IA, machine learning, data mining e altre novità che negli ultimi anni stanno rendendo il mondo dell’elettronica sempre più avvincente, incombente, utile. Assistant è diventato talmente funzionale che spesso passo dalla versione italiana a quella inglese, per vedere le nuove caratteristiche implementate e che saranno aggiunte più avanti nella “lingua del sì”: proprio durante uno di questi switch, mi sono chiesto quale fosse l’italiano degli assistenti vocali.

1467548513_Ok-GoogleGli assistenti, in particolare quello di Google, imparano con l’utilizzo, pertanto non basta tradurli parola per parola come si fa con gli altri programmi: per renderlo in italiano occorre utilizzarlo in italiano quanto il più possibile.Poiché ci sono meno parlanti italofoni che anglofoni, al mondo, allora si spiega perché gli aggiornamenti agli assistenti in italiano avvengono in un secondo momento rispetto a quelli in inglese (o in portoghese/spagnolo). La peculiarità di imparare tramite l’utilizzo comporta l’apprendimento non solo delle norme grammaticali della lingua, ma anche delle varianti parlate (e scritte) di chi poi utilizza questi software. L’esposizione alla massa di comunicanti italofoni, dunque, ha portato gli assistenti a comprendere anche le forme più dialettali dell’italiano. Se dico al mio assistente “voglio mangiare una pésca”, lui capisce comunque che mi sto riferendo al frutto pèsca, non allo sport. Continua a leggere

Annunci

Petrarchive e la nuova strada delle Digital Humanities

I manoscritti e le opere digitalizzate, negli ultimi anni, stanno aumentando notevolmente. Si tratta del resto della principale occupazione delle Digital Humanities (lo scopo più immediato, almeno), ma non sempre il più semplice da perseguire. In fin dei conti, se si vuole lavorare ai testi usando i PC, la prima cosa da fare è trascrivere gli stessi testi al computer: per quanto il concetto sia lapalissiano, metterlo in pratica lo è di meno.

Un testo utilizzabile per le Digital Humanities non può – né deve – essere una mera trascrizione: deve essere “codificato” per essere “processato”. Per questo i testi vengono digitalizzati in diversi formati: in PDF per la stampa, in ePub per i lettori digitali e in TEI/XML per la ricerca.

9316124_orig

Alcuni vantaggi di un testo codificato li abbiamo già visti nell’esperimento del “Quantitative Formalism”: il computer, processando determinati tag attribuiti al testo, è in grado di eseguire ricerche e varie operazioni computazionali, ottenendo talvolta risultati sorprendenti. [1]

Il mondo anglosassone è molto più avanti nell’elaborare questi tipo di proposte. Continua a leggere

La poesia che (non) si doveva scrivere

A home transformed by the lightning
the balanced alcoves smother
this insatiable earth of a planet, Earth.
They attacked it with mechanical horns
because they love you, love, in fire and wind.
You say, what is the time waiting for in its spring?
I tell you it is waiting for your branch that flows,
because you are a sweet-smelling diamond architecture
that does not know why it grows. 
[1]

Questa lirica è stata pubblicata dalla rivista «The Archive» della Duke – la prestigiosa università americana – nel 2011. Colui che l’ha firmata, Zackary Scholl, probabilmente non è ha mai composta una, nonostante gli piaccia molto leggerle: il componimento che ha inviato, infatti, è stato scritto da un suo algoritmo.
Quello di Scholl era uno dei primi tentativi di far scrivere ad una IA un testo creativo. Già nello scorso articolo ne avevamo accennato riguardo ai report giornalistici di Associated Press e all’ingresso delle IA nelle arti.

At The World's Fair

Come funziona l’algoritmo di Scholl? Il programmatore ha assegnato ad ogni parola di un vocabolario basato su liriche inglesi un valore positivo (+1), neutro (0) o negativo (-1): chiedendo poesie sdolcinate, la macchina utilizza parole positive; chiedendone più malinconiche, userà parole negative. Il sistema di Scholl è abbastanza rudimentale, eppure non solo nessun essere umano si è reso conto che l’opera era stata scritta da un PC, ma addirittura potrebbe averla trovata piacevole, bella, emozionante. [2]

Venendo a qualcosa più vicino a noi, Galileo.net ha pubblicato un articolo molto interessante sul lavoro di Jack Hopkins, fondatore della Spherical Defence Labs LLC di Londra ed ex ricercatore presso il laboratorio di Informatica di Cambridge. [3] Hopkins sta sviluppando alcuni algoritmi per “insegnare” ad una rete neurale artificiale a comporre poesie paragonabili a quelle dei poeti umani. Il suo sistema è molto più “professionale”: sono stati caricati nel programma ben 7,56 milioni di parole ricavate da libri di poesie del ventesimo secolo. Questa IA, inoltre, avrebbe una speciale memoria sia a breve che a lungo termine, “esercitandola” alle emozioni. Il risultato è che il nuovo sistema riesce a scrivere poesie in diverse forme ritmiche, adoperando soluzioni formali e strutture retoriche, persino la rima.

L’IA di Hopkins è in grado di scrivere poesie su molte tematiche: proponendogli una poesia sull’estate, il sistema troverà tutti i termini che richiamano la stagione più calda e ci comporrà una lirica. Nel 70% dei casi in cui l’IA ha composto una poesia “sensata”, gli esseri umani non sono stati in grado di distinguere fra queste poesie e quelle composte da autori umani, trovando spesso le prime addirittura più belle, dunque emozionanti. [4] Continua a leggere

2017: Faust nello spazio

Go è un gioco di strategia orientale simile alla dama o agli scacchi, il cui campionato mondiale si disputa online. L’attuale campione del mondo, Master P, ha vinto 51 partite su 52, pareggiando l’ultima a causa della disconnessione dell’avversario. È diventato un vero idolo, e lo è ancora di più da quando ha fatto coming out: Master P è una Intelligenza Artificiale (IA) elaborata da Google nell’ambito del progetto DeepMind. In questi giochi di strategia, le macchine vincono confrontando tutte le possibili mosse per calcolare quella migliore.

go-game-screen-shot-2016-03-08-at-8.17.43-pm-pst-100649230-large

L’uomo era stato sconfitto agli scacchi già nel 1997, quando DeepBlue sconfisse Kasparov,[14] ma questa strategia non è applicabile al Go, poiché il numero di mosse possibili è molto più alto di quelle già stratosferiche degli scacchi o della dama: il computer avrebbe semplicemente impiegato troppo tempo per calcolare tutte le mosse. Ma Master P è un’IA vera e propria, non un semplice computer. Master P, versione successiva di AlfaGo, ha imparato a giocare, trovando soluzioni proprie e nuove strategie, studiando le partite dei grandi giocatori del passato e giocando contro se stesso. Master P ha vinto non perché abbia fatto calcoli incredibili sulle mosse, ma perché è stato più creativo dell’avversario umano.[1]

Coscienza

Nonostante la pigrizia sia stata il motore della ricerca tecnologica, dalla ruota all’aratro la macchina è stata guidata da un essere vivente, quindi ne ha subito i limiti. Eliminare questi limiti è stato il passo successivo: non un congegno che si muove secondo la volontà di un essere vivente, bensì un congegno al quale sono state date delle istruzioni – un programma – che la macchina esegue. Ci riuscì Alan Turing quando accelerò la vittoria alleata della Seconda Guerra Mondiale creando il computer: lui inseriva i codici della macchina tedesca Enigma, il suo proto-computer li decifrava per tutta la notte, uno dopo l’altro, senza mai fermarsi o stancarsi o perdere la concentrazione.

Programmare una macchina significa insegnargli a fare qualcosa e a farlo per sempre, anche se l’essere umano dovesse estinguersi (a patto che continui ad essere alimentata, ovviamente). Gli industriali la chiamano catena di montaggio, i programmatori ciclo di while: inizia → fai qualcosa → se hai finito, inizia daccapo, altrimenti continua. Guardando i video di una qualsiasi industria moderna, si può vedere come le macchine, sempre allo stesso ritmo, sono in grado di montare degli oggetti prestabiliti partendo dalla materia grezza fino al prodotto finito.[2] La macchina è uno strumento che fa una cosa sola perfettamente, senza stancarsi, né annoiarsi. Non mangia, non beve, non va in bagno, non dorme, non sciopera: il sogno di qualunque industriale. Continua a leggere

L’amore (per il libro) ai tempi dei big data

google books

Pare che l’epoca in cui ci troviamo sia detta “dei Big Data”, cioè siamo in grado, attraverso la rete e i computer, di raccogliere e analizzare una stratosferica quantità di dati. Questi dati possono rappresentare un sacco di cose: dal like che hai messo al post di “Buongiornissimo” di un cinquantenne, fino ad oltre ventiquattro secoli di produzione letteraria. Avete mai sognato di possedere una biblioteca che contenesse ogni singolo volume mai scritto dai grandi della letteratura mondiale? Be’, negli ultimi anni sono stati digitalizzati, rendendoli accessibili e lavorabili da ogni parte del globo, circa 500 milioni di terabyte [1] di manoscritti, incunaboli, cinquecentine, fino alla bibliografia completa di Fabio Volo. Si tratta di una quantità di dati talmente grande, che per archiviarli tutti servirebbero tanti iMac affiancati, da fare 6 volte e mezzo il giro della Terra lungo l’Equatore.

Internet-Archive

Per fare qualche esempio, compagnie private come la ProQuest e la British Library hanno rilasciato, dietro compenso, milioni di libri, creando dei corpora organizzati cronologicamente: i primi formati da opere scannerizzate, i secondi in formato Kindle. A queste raccolte private, si affiancano quelle con accesso libero e gratuito: vale la pena di ricordare l’Internet Archive (400 autori per 40 lingue), l’italianissima Liber Liber (circa 3500 libri) e l’enorme Google Books, che, con i suoi 5 miliardi di testi della natura più svariata, ha il monopolio della digitalizzazione internazionale. Si tratta di una quantità di materiale enorme (“big data”, appunto), che solo noi umanisti possiamo analizzare, indicizzare, studiare.

liber liber

Un progetto molto affascinante, in questo senso, è quello della biblioteca digitaleDigilibLT”, che raccoglie e distribuisce, sotto licenza Creative Commons, opere del latino tardo in ebook: lo studioso, quindi, in maniera totalmente gratuita, può crearsi la propria biblioteca personale per fare ricerca fra i vari testi e fra frammenti di testo usando software come Calibre o iBook.

La DigilibLT nasce come «un ideale completamento e continuazione della raccolta di testi latini nota come PHI cdrom 5.3. Tale raccolta contiene tutti i testi latini dalle origini fino al I/II sec. d.C.» [2] Si tratta di un progetto che potrà essere molto utile per gli studi umanistici, ed è curato, come la maggior parte dei progetti di Informatica Umanistica, da più università: è in corso presso il Dipartimento di Studi Umanistici dell’Università degli Studi del Piemonte Orientale, con la partecipazione del Dipartimento di Studi Umanistici dell’Università degli Studi di Torino e con l’aiuto di docenti delle università di Salamanca, Durham e di Roma Tor Vergata.

Il testo delle opere è ricostruito attraverso edizioni critiche giudicate valide da un comitato scientifico, inoltre la sua scansione viene revisionata due volte: i libri non sono semplici «file da scaricare, ma vere e proprie edizioni dei testi».[2] Testi che vengono codificati (in TEI/XML), in modo che l’utente finale possa fare una ricerca all’interno del testo o fra vari testi. Vengono quindi resi pubblici con licenza Creative Commons in cinque differenti formati: codice sorgente TEI/XML; “txt” (il classico documento di testo semplice); PDF (per la stampa) e ePub (l’ebook vero e proprio). Questi formati rispecchiano ognuno uno scopo o una preferenza dello studioso: il TEI/XML e il txt per la ricerca, il PDF per coloro i quali preferiscono la lettura a stampa e l’ePub per quelli che non disdegnano la lettura digitale. La licenza aperta di tipo «Creative Commons – Attribuzione – Non Commerciale – Condividi allo stesso modo» rende il testo disponibile a chiunque in maniera gratuita. [3]

liberliber-libri Continua a leggere