The present invention is a methodology for analyzing and evaluating a
sample text, such as essay(s), or document(s). This methodology compares
sample text to a reference essay(s), document(s), or text segment(s)
within a reference essay or document. The methodology analyzes the amount
of subject-matter information in the sample text, analyzes the relevance
of subject matter information in the sample and evaluates the semantic
coherence of the sample. This methodology presumes there is an underlying,
latent semantic structure in the usage of words. The method parses and
stores text objects and text segments from the sample text and reference
text into a two-dimensional data matrix. A weight is computed for each
text object and applied to each data matrix cell value. The method
performs a singular value decomposition on the data matrix, which produces
three trained matrices. The method computes a vector representation of the
sample text and reference text using the three trained matrices. The
methodology compares the sample text to the reference text by computing
the cosine between the vector representation of the sample text and the
vector representation of the standard reference text. Alternatively, the
dot product is used to compare the sample text to the standard reference
text. A grade is assigned to the sample text based on the degree of
similarity between the sample text and the standard reference text.
La presente invenzione è una metodologia per analizzare e la valutazione del testo del campione, quale essay(s), o document(s). Questa metodologia confronta il testo del campione ad un essay(s) di riferimento, ad un document(s), o ad un segment(s) del testo all'interno di un saggio o di un documento di riferimento. La metodologia analizza la quantità di informazioni della oggetto-materia nel testo del campione, analizza l'attinenza delle informazioni del tema nel campione e valuta la coerenza semantica del campione. Questa metodologia presume che ci è una struttura semantica di fondo e latente nell'uso delle parole. Il metodo analizza ed immagazzina gli oggetti del testo ed i segmenti di testo dal testo del campione e dal testo di riferimento in una tabella bidimensionale di dati. Un peso è computato per ogni oggetto del testo ed è applicato ad ogni valore delle cellule della tabella di dati. Il metodo effettua una decomposizione singolare di valore sulla tabella di dati, che produce tre tabelle addestrate. Il metodo computa una rappresentazione di vettore del testo del campione e del testo di riferimento usando le tre tabelle addestrate. La metodologia confronta il testo del campione al testo di riferimento computando il coseno fra la rappresentazione di vettore del testo del campione e la rappresentazione di vettore del testo standard di riferimento. Alternativamente, il prodotto di puntino è usato per confrontare il testo del campione al testo standard di riferimento. Un grado è assegnato al testo del campione basato sul grado di somiglianza fra il testo del campione ed il testo standard di riferimento.