La Fondazione Centro di Documentazione Ebraica Contemporanea CDEC di Milano, principale archivio e istituto per la storia degli ebrei in Italia nell’età contemporanea, presenterà la prima sperimentazione con linked open data sulla storia della Shoah il 21 febbraio a Roma nel corso del convegno LOD2014 – Linked Open Data: where are we? organizzato dal W3C e CNR presso l’Archivio di Stato di Roma.

Il paper sarà presentato da Laura Brazzo (CDEC) e Silvia Mazzina (regesta.exe) e racconterà la sperimentazione  effettuata su un subset della banca dati sui deportati dall’Italia. Nel corso del convegno sarà anche possibile accedere a un endpoint con questa prima sperimentazione sui dati navigabili da un utente anche attraverso Lodlive di Diego Camarda, che ha aperto il convegno con un keynote sulla situazione dei LOD in Italia.

Il progetto LOD di CDEC è una novità assoluta per l’Italia ma, allo stato delle nostre conoscenze, anche in campo internazionale, e si è posto l’obiettivo di una formalizzazione dei concetti relativi alla persecuzione antiebraica in Italia tra il 1943 e il 1945, in uno sforzo di astrazione che potrà essere utile anche per allargare l’esperienza ad altri paesi o ad altri contesti di persecuzione e deportazione.

Questo è il primo importante risultato della seconda fase dei lavori del progetto per la pubblicazione di una banca dati sui documenti e le risorse del CDEC per la storia della Shoah in Italia.

Il Progetto CDEC integrazione tra la tecnologie xDams e openDams

Tale progetto, avviato a partire dalla fine del 2012 in collaborazione con regesta. exe, si inserisce nel quadro più ampio di un lavoro di risistemazione e integrazione del sistema archivistico dell’istituto, digitalizzazione di documenti, creazione di una “digital library”, basata sull’integrazione della piattaforma xDams per la gestione degli archivi storici e la tecnologia openDams, sempre sviluppata da regesta.exe, per la gestione delle risorse documentali secondo il paradigma dei linked data.

Le potenzialità offerte dalle tecnologie messe in campo per lo sviluppo di questo progetto, permetteranno alla Fondazione CDEC non solo di ribadire il proprio decennale impegno per la  conservazione della memoria della Shoah e dell’ebraismo italiano, ma anche di essere tra i primi istituti italiani promotori attivi del concetto di condivisione della cultura e dei contenuti culturali.

Formati standard e aperti

In questo un ruolo di primaria importanza è svolto dalla svelta sul formato dei dati, quelli utilizzati da xDams per la compliance scientifica  agli standard di settore e dal formato di rappresentazione dei dati Linked Open Data (LOD), adottato per lo sviluppo di tale progetto.  Il formato LOD infatti va incontro innanzitutto alle esigenze manifestate dal CDEC all’avvio del progetto di migliorare l’efficacia del lavoro interno e la conoscenza e rintracciabilità trasversale dei dati e dei documenti appartenenti alle diverse aree di lavoro dell’istituto (Biblioteca, archivio storico, archivio fotografico, archivio audiovisivo, archivio sul pregiudizio antiebraico). Il suo utilizzo anche in fase di pubblicazione dei contenuti, diventa efficace strumento per l’incremento delle opportunità di confronto e scambio di dati con altri istituti e con esse, delle potenzialità di ampliamento della ricerca scientifica e della conoscenza. I dati in formato LOD, supportati dalla definizione di una ontologia per il dominio “Shoah” – mai realizzata finora –rendono possibile infatti un maggiore e più libero approfondimento semantico delle informazioni relative a questo specifico ambito di conoscenza.

1. Aree di intervento
Il progetto del CDEC, da un punto di vista strettamente tecnologico, consiste di tre macro aree che hanno lo scopo di ottimizzare l’attività di ricerca e documentazione del Centro rendendolo collaborativo ed estendendo la fruizione dei contenuti al maggior numero di collaboratori e/o di studiosi esterni al Centro, nel minor tempo possibile. Questi tre settori d’intervento sono:

  • Consolidamento di metadati e documenti di natura storica e/o contemporanea, l’attività di studio e ricerca del Centro è stata supportata negli anni da differenti software specializzati che sono stati migrati in unica base dati XML.
  • Implementazione di un sistema di lavoro centralizzato e collaborativo, basato sul paradigma dei Linked Open Data (LOD) per costruire una visione integrata sia della documentazione storica che di quella corrente e/o proveniente da fonti esterne.
  • Piattaforma di pubblicazione dei dati d’archivio sia in forma tradizionalmente web che in modalità LOD.

2. Il consolidamento delle basi dati
Il primo obiettivo è stato ottenuto migrando le basi dati esistenti dai diversi software utilizzati in passato (Sesamo, Access, Fotostation, Excel, Erasmo) nella piattaforma xDams O.S. La natura open source del progetto consente al CDEC di sentirsi completamente autonomo ma al tempo stesso il supporto professionale che Regesta.exe ha fornito e la sua competenza sul prodotto hanno permesso di accorciare i tempi di realizzazione, ottimizzare i risultati con il miglior rapporto costi/benefici. I requisiti che xDams hanno convinto CDEC sono:

  • La storicizzazione in formato XML è una garanzia a riguardo la leggibilità dei dati a lungo termine, anche nel caso in cui il supporto dell’azienda che ha prodotto la piattaforma non fosse più disponibile. Relativamente alla parte “dati” questo rappresenta un valore, anche per il futuro,  paragonabile a quello costituito dalla modalità open source per quanto riguarda il software.
  • Rispetto degli standard di catalogazione. La ricerca da parte di regesta della compatibilità con le indicazioni nazionali e internazionali consente di aumentare grado di interoperabilità con istituzioni esterne.
  • L’approccio web nativo è un passaggio fondamentale tra l’organizzazione del CDEC prima e dopo questo progetto, ovvero la possibilità di delocalizzare l’attività di ricerca e studio rispetto alla sede fisica del Centro e agevolare la realizzazione di progetti di cooperazione scientifica internazionale.

3. L’attività di migrazione
In questi mesi sono stati importate  più di 50.500 schede fotografiche, circa 2.600 schede di archivio storico e sono state create 21.240 occorrenze di authority persone e famiglie ricavandole dagli archivi, inoltre sono state censite oltre a 2360 schede di luoghi. Oltre alla migrazione di dati esistenti è stato predisposto l’ambiente per realizzare la catalogazione anche di oggetti diversi, quali i materiali del ricco archivio audiovisivo.

E’ in corso di realizzazione la migrazione della Biblioteca, con la realizzazione degli opportuni meccanismi di collegamento con le istituzioni nazionali del settore e delle funzionalità di gestione operativa, ma a seguire saranno implementate anche funzionalità relative a tutti gli altri gruppi di lavoro del CDEC.

Di particolare rilevanza, come detto in introduzione, il task di individuazione e descrizione di una ontologia di riferimento, per ampliare la capacità di interpretazione semantica delle informazioni.

4. Differenziazione della gestione degli archivi storici e correnti
Il secondo obiettivo del CDEC era collegato alla necessità di supportare tutta l’attività del centro con adeguati strumenti tecnologici al fine di ridurre le successive attività di rilavorazione dei dati legate all’attuale sistema di raccolta dei dati solo in parte automatizzato.

Questa fase ha richiesto un ulteriore approfondimento perché ci si è posti la domanda se differenziare gli strumenti per tutta l’attività del Centro rispetto a quelli dell’archivio storico. Si è optato quindi per mantenere disgiunti i tools, a causa delle tante particolarità della archiviazione storica, con standard nazionali e internazionali che si è tenuti a rispettare. Da un lato si sentiva la necessità di avere uno strumento specializzato e collaudato in questo particolare ambito, da qui la scelta di utilizzare xDams, dall’altro emergeva il rischio che un software con una tale specifica verticalizzazione potesse essere limitante nell’affrontare le altre problematiche legate alla documentazione eterogenea sulla quale abitualmente lavoriamo.

Si è quindi optato per definire un sistema di virtualizzazione di tutte le basi dati secondo il già citato paradigma dei Linked Open Data. Ogni fonte di dati e documenti o funzionalità operativa che non richiedesse applicativi specifici è stata migrata su un unico strumento operativo, Open Dams, dove Open è appunto sinonimo di Open Data,  nel quale ogni provider di dati si interfaccia, attraverso plugin specifici, a un end-point accessibile con linguaggio SPARQL e  fruibile mediante la medesima piattaforma che funziona da unico punto di accesso a tutta la base dati.

5. Piattaforma centralizzata e collaborativa
OpenDams non assolve però solo alla funzione di consolidamento documentale in quanto fornisce anche importanti strumenti di lavoro collaborativo che permetteranno nel futuro di massimizzare i risultati del lavoro prodotto dai singoli in un ‘ottica di conoscenza complessiva del patrimonio.

L’interfaccia di OpenDams offre la possibilità di lavorare insieme su documenti, creare cartelle di documenti, aggiungere commenti personali e/o di condividerli, produrre opere derivate a partire da tutti gli oggetti presenti sul desk di lavoro.

6. LOD come paradigma di integrazione dei dati
L’architettura così costituita disegna un datawarehouse documentale e informativo che presenta, grazie a OpenDams e ai LOD, la visione di un’omogenea e completa base dati integrata di tutto il CDEC.
L’adozione dell’approccio LOD però, oltre all’ottimizzazione della gestione interna, trova un’ulteriore ragion d’essere nella prospettiva di condivisione delle informazioni con l’esterno, infatti la pubblicazione dell’End Point consentirà a soggetti terzi il riutilizzo dei dati, ma è importante sottolineare che ciò avverrà in un’ottica paritaria di scambio, per cui ciascuno conseguirà  l’arricchimento delle proprie informazioni grazie a  quelle pubblicate, con analoga modalità, in altre parti del mondo.

Già le prime sperimentazioni con importanti archivi italiani rendono concreta la possibilità di (ri)costruire ulteriore conoscenza a partire dall’integrazione di informazioni di archivi differenti. La definizione della prima parte dell’ontologia CDEC, redatta ovviamente in inglese, potrà costituire un modello di riferimento per chi desiderasse percorrere il medesimo cammino.

La metodologia Linked Open Data è stata descritta da Tim Berners Lee, il padre riconosciuto di internet, quale lo standard principe di condivisione della conoscenza, in quanto per sua natura non implica la definizione di un modello statico dei dati e permette di rappresentare gli stessi in maniera differente in base a diversi ambiti di applicazione. La visione di Berners Lee è stata adottata con entusiasmo dai principali governi che vi leggono la possibilità di passaggio ad una nuova fase di Internet che viene identificata comunemente come Web of Data.

Il progetto CDEC quindi rappresenta un modello di integrazione innovativo di gestione del patrimonio sia storico che corrente, che sfrutta lo standard di rappresentazione dei dati LOD sia all’interno che all’esterno del Centro con l’obiettivo di raggiungere il più alto livello di conoscenza condivisa con il più alto numero di utenti possibili.