Classificazione ed analisi di dati testuali
Introduzione
Sistema di archiviazione, classificazione ed analisi dei testi. Per l’archiviazione del dato si è sviluppato un sistema misto (SQL e NoSQL) di più data base a strati per avere la possibilità di fare query complesse senza che ci sia un’eccessiva richiesta di risorse. Questa struttura è nata inizialmente per conservare ed analizzare lingue in decadimento con almeno un dizionario, un corpus limitato.

Caratteristiche Tecniche
L’oggetto dell’invenzione consiste in un sistema di archiviazione e di analisi di testi mediante un classificatore ed un implementatore basato su machine learning di tipo statistico, sviluppato per essere in grado di produrre risultati anche con un numero di dati molto limitato ad esempio l’archiviazione e l’analisi di lingue in decadimento e del loro patrimonio culturale. L’archiviazione dei dati testuali avviene in un sistema di basi di dati misto e stratificato (SQL e NoSQL) per adattarsi facilmente ad altri ambiti che non siano solamente l’analisi linguistica, la corpus linguistics o la computational linguistics, ma una qualsiasi analisi che preveda algoritmi di distribuzione, loop predittivi, analisi statistiche, ecc. Ad esempio si stanno valutando applicazioni in ambito medico (digitalizzazione delle anamnesi) e gestionale (business intelligence).
Possibili Applicazioni
- Corpus linguistics;
- Content analysis;
- Social network analytics;
- Sentiment analysis;
- Data retrieval;
- Data mining.
Vantaggi
- Prima piattaforma di corpus linguistics sviluppata per le lingue minoritarie ed in decadimento;
- Sistema di archiviazione dei file stratificato e frammentato, studiato per non richiedere elevata potenza di calcolo;
- Piattaforma veloce e flessibile.