Nessun risultato. Prova con un altro termine.
Guide
Notizie
Software
Tutorial

Stanbol diventa un progetto Apache Top Level

Link copiato negli appunti

Apache Stanbol è un progetto molto promettente nell'ambito dell'arricchimento semantico, frutto di una lavoro coordinato tra vari gruppi di ricerca interni ad università , enti e società  sparse per tutta Europa, all'interno del progetto IKS (Interactive Knowledge Stack for small to medium CMS providers). Obiettivo è quello di offrire servizi di arricchimento semantico, riconoscimento di Named Entities, reasoning, ed altro ancora.

Arricchimento con Named Entites

Stanbol consiste in una applicazione modulare ed estendibile, che espone servizi di riconoscimento automatico delle Named Entities, e di arricchimento del testo in base ad esse. àˆ possibile validare le entità  prodotte, così da controllarne (ed eventualmente migliorarne nel tempo) la qualità  e la precisione.

Apache Stanbol

Questo genere di servizi possono essere inseriti tramite opportuni connettori all'interno dei CMS, aumentando il valore dei contenuti, e la loro riutilizzabilità  all'interno della "nuvola" dei Linked Data, costituendo in questo modo un ideale punto di incontro tra i dati semantici, e quelli del "mondo reale".

Cosa è una Named Entity?

Per chi non lo sapesse per named entity si intende una entità  "individuo", facilmente identificabile e riconoscibile univocamente all'interno di un dominio ben definito: tipici esempi sono Persone, Luoghi, Organizzazioni, ad esempio reperibili tramite freebase o dbpedia.

CMS

àˆ facile immaginare come questo tipo di funzionalità  costituiscano un miglioramento interessante all'editing tradizionale dei CMS, e quindi il progetto è già  integrabile sui maggiori prodotti: Liferay, Alfresco, Drupal, WordPress, ed altri.

RDF, SEO, Knowledge Management ed altro ancora...

L'architettura è realizzata tramite un ambiente OSGi, quindi consente l'aggiunta di componenti realizzati ad-hoc, così come l'hot plug dei vari componenti. La parte di indicizzazione dei contenuti e dei vocabolari/thesauri è realizzata tramite il framework Solr, l'identificazione del linguaggio e l'estrazione di metadati tramite Tika e Metaxa. Sono in fase di integrazione anche componenti più sofisticati per il trattamento automatico della lingua, come OpenNLP, UIMA ed altri.
Ovviamente è impossibile riassumere qui tutte le caratteristiche di una architettura così ricca di funzionalità , ma non va sottovalutata la possibilità  di miglioramento anche in ambito SEO, con l'introduzione dell'arricchimento RDFa prodotto dalla knowledge base interna al prodotto.

Approfondimenti

Ti consigliamo anche