A system and method for binary classification of text units such as
sentences, paragraphs and documents as either a rule of law (ROL) or not a
rule of law (.about.ROL).
During a training phase of the system and method of the present invention,
an initialized knowledge base and labeled or pre-classified sentences are
used to build a trained knowledge base. The trained knowledge base
contains an equation, a threshold, and a plurality of statistical values
called Z values.
When inputting text documents for classification, a Z value is generated
for each term or token in the input text. The Z values are input to the
equation which calculates a score for each sentence. Each calculated score
is then compared to the threshold to classify each sentence as either ROL
or .about.ROL.
Ένα σύστημα και μια μέθοδος για τη δυαδική ταξινόμηση των μονάδων κειμένων όπως οι προτάσεις, οι παράγραφοι και τα έγγραφα ως είτε κράτος δικαίου (ROL) είτε όχι κράτος δικαίου (αψοuτ.ΡΟΛ). Κατά τη διάρκεια μιας φάσης κατάρτισης του συστήματος και της μεθόδου της παρούσας εφεύρεσης, μια μονογραμμένη βάση γνώσεων και επονομαζόμενος ή προ-ταξινομημένος προτάσεις χρησιμοποιείται για να χτίσει μια εκπαιδευμένη βάση γνώσεων. Η εκπαιδευμένη βάση γνώσεων περιέχει μια εξίσωση, ένα κατώτατο όριο, και μια πολλαπλότητα των στατιστικών τιμών αποκαλούμενων τιμές ζ. Κατά εισαγωγή των εγγράφων κειμένων για την ταξινόμηση, την αξία ζ παράγεται για κάθε όρο ή σημείο στο κείμενο εισαγωγής. Οι τιμές ζ εισάγονται στην εξίσωση που υπολογίζει ένα αποτέλεσμα για κάθε πρόταση. Κάθε υπολογισμένο αποτέλεσμα συγκρίνεται έπειτα με το κατώτατο όριο για να ταξινομήσει κάθε πρόταση ως είτε ROL είτε αψοuτ.ΡΟΛ.