A method of automatically labeling of unlabeled text data can be practiced
independent of human intervention, but that does not preclude manual
intervention. The method can be used to extract relevant features of
unlabeled text data for a keyword search. The method of automated labeling
of unlabeled text data uses a document collection as a reference answer
set. Members of the answer set are converted to vectors representing
centroids of unknown groups of unlabeled text data. Unlabeled text data
are clustered relative to the centroids by a nearest neighbor algorithm
and the ID of the relevant answer is assigned to all documents in the
cluster. At this point in the process, a supervised machine learning
algorithm is trained on labeled data, and a classifier for assigning
labels to new text data is output. Alternatively, a feature extraction
algorithm may be run on classes generated by the step of clustering, and
search features output which index the unlabeled text data.
Μια μέθοδος αυτόματα να ονομάσει των unlabeled στοιχείων κειμένων μπορεί να είναι ασκημένος ανεξάρτητος της ανθρώπινης επέμβασης, αλλά αυτή δεν αποκλείει τη χειρωνακτική επέμβαση. Η μέθοδος μπορεί να χρησιμοποιηθεί για να εξαγάγει τα σχετικά χαρακτηριστικά γνωρίσματα των unlabeled στοιχείων κειμένων για μια αναζήτηση λέξης κλειδιού. Η μέθοδος αυτοματοποιημένου μαρκαρίσματος των unlabeled στοιχείων κειμένων χρησιμοποιεί μια συλλογή εγγράφων ως σύνολο απάντησης αναφοράς. Τα μέλη του συνόλου απάντησης μετατρέπονται στα διανύσματα που αντιπροσωπεύουν centroids των άγνωστων ομάδων unlabeled στοιχείων κειμένων. Τα unlabeled στοιχεία κειμένων συγκεντρώνονται σχετικά με centroids από έναν κοντινότερο αλγόριθμο γειτόνων και η ταυτότητα της σχετικής απάντησης ορίζεται σε όλα τα έγγραφα στη συστάδα. Σε αυτό το σημείο στη διαδικασία, ένας εποπτευμένος αλγόριθμος εκμάθησης μηχανών εκπαιδεύεται στα επονομαζόμενα στοιχεία, και ένας ταξινομητής για την ανάθεση των ετικετών στα νέα στοιχεία κειμένων είναι παραγωγή. Εναλλακτικά, ένας αλγόριθμος εξαγωγής χαρακτηριστικών γνωρισμάτων μπορεί να οργανωθεί στις κατηγορίες που παράγονται από το βήμα της συγκέντρωσης, και η αναζήτηση χαρακτηρίζει την παραγωγή που συντάσσει ευρετήριο τα unlabeled στοιχεία κειμένων.