Apache Stanbol è un progetto molto promettente nell'ambito dell'arricchimento semantico, frutto di una lavoro coordinato tra vari gruppi di ricerca interni ad università , enti e società sparse per tutta Europa, all'interno del progetto IKS (Interactive Knowledge Stack for small to medium CMS providers). Obiettivo è quello di offrire servizi di arricchimento semantico, riconoscimento di Named Entities, reasoning, ed altro ancora.
Arricchimento con Named Entites
Stanbol consiste in una applicazione modulare ed estendibile, che espone servizi di riconoscimento automatico delle Named Entities, e di arricchimento del testo in base ad esse. àˆ possibile validare le entità prodotte, così da controllarne (ed eventualmente migliorarne nel tempo) la qualità e la precisione.
Questo genere di servizi possono essere inseriti tramite opportuni connettori all'interno dei CMS, aumentando il valore dei contenuti, e la loro riutilizzabilità all'interno della "nuvola" dei Linked Data, costituendo in questo modo un ideale punto di incontro tra i dati semantici, e quelli del "mondo reale".
Cosa è una Named Entity?
Per chi non lo sapesse per named entity si intende una entità "individuo", facilmente identificabile e riconoscibile univocamente all'interno di un dominio ben definito: tipici esempi sono Persone, Luoghi, Organizzazioni, ad esempio reperibili tramite freebase o dbpedia.
CMS
àˆ facile immaginare come questo tipo di funzionalità costituiscano un miglioramento interessante all'editing tradizionale dei CMS, e quindi il progetto è già integrabile sui maggiori prodotti: Liferay, Alfresco, Drupal, WordPress, ed altri.
RDF, SEO, Knowledge Management ed altro ancora...
L'architettura è realizzata tramite un ambiente OSGi, quindi consente l'aggiunta di componenti realizzati ad-hoc, così come l'hot plug dei vari componenti. La parte di indicizzazione dei contenuti e dei vocabolari/thesauri è realizzata tramite il framework Solr, l'identificazione del linguaggio e l'estrazione di metadati tramite Tika e Metaxa. Sono in fase di integrazione anche componenti più sofisticati per il trattamento automatico della lingua, come OpenNLP, UIMA ed altri.
Ovviamente è impossibile riassumere qui tutte le caratteristiche di una architettura così ricca di funzionalità , ma non va sottovalutata la possibilità di miglioramento anche in ambito SEO, con l'introduzione dell'arricchimento RDFa prodotto dalla knowledge base interna al prodotto.