A data processing and analysis system, and a method of using the same, for
discovering implicit relationships in data. The method is executed in a
computer system capable of receiving input data comprised of expert
knowledge, empirical data, and user-defined constraints for any
application domain. The system and method provide any pre-processing the
input data may require, and perform feature selection and extraction on
the input data. Further, the system and method generate a graphical
representation of the implicit relationships in the input data, indicating
relationships between both class variables and feature variables. Also
generated is a classifier that provides a semantic and statistical
justification of its classification results which further provides:
statistical relevancy of the data set, including an indication of the
undersampled regions of the data space; a data analysis specific to a
desired level of confidence; and a sound decision theoretical foundation
for classification thresholding. The system and method generate a
classifier capable of classifying a sample with respect to any variable,
handle missing data values, and provide a complete data analysis.
Un sistema di analisi e di elaborazione dei dati e un metodo di usando lo stesso, per la scoperta dei rapporti impliciti nei dati. Il metodo è eseguito in un sistema di elaborazione capace di ricezione i dati di input formati da conoscenza approfondita, i dati empirici e dei vincoli prestabiliti dall'utente per tutto il dominio di applicazione. Il sistema ed il metodo forniscono tutto il pre-processing che i dati di input possono richiedere ed effettuano la selezione di caratteristiche e l'estrazione sui dati di input. Più ulteriormente, il sistema ed il metodo generano una rappresentazione grafica dei rapporti impliciti nei dati di input, indicante i rapporti fra sia le variabili del codice categoria che le variabili della caratteristica. Inoltre è generato un classificatore che fornisce una giustificazione semantica e statistica dei relativi risultati di classificazione che più ulteriormente fornisce: l'attinenza statistica dell'insieme di dati, compreso un'indicazione del undersampled le regioni dello spazio di dati; un'analisi di dati specifica ad un livello voluto di riservatezza; e un fondamento teorico di decisione sana per la classificazione che thresholding. Il sistema ed il metodo generano un classificatore capace di classificare un campione riguardo a tutta la variabile, maneggiano i valori mancanti di dati e forniscono un'analisi di dati completa.