Automatic labeling of unlabeled text data

   
   

A method of automatically labeling of unlabeled text data can be practiced independent of human intervention, but that does not preclude manual intervention. The method can be used to extract relevant features of unlabeled text data for a keyword search. The method of automated labeling of unlabeled text data uses a document collection as a reference answer set. Members of the answer set are converted to vectors representing centroids of unknown groups of unlabeled text data. Unlabeled text data are clustered relative to the centroids by a nearest neighbor algorithm and the ID of the relevant answer is assigned to all documents in the cluster. At this point in the process, a supervised machine learning algorithm is trained on labeled data, and a classifier for assigning labels to new text data is output. Alternatively, a feature extraction algorithm may be run on classes generated by the step of clustering, and search features output which index the unlabeled text data.

Μια μέθοδος αυτόματα να ονομάσει των unlabeled στοιχείων κειμένων μπορεί να είναι ασκημένος ανεξάρτητος της ανθρώπινης επέμβασης, αλλά αυτή δεν αποκλείει τη χειρωνακτική επέμβαση. Η μέθοδος μπορεί να χρησιμοποιηθεί για να εξαγάγει τα σχετικά χαρακτηριστικά γνωρίσματα των unlabeled στοιχείων κειμένων για μια αναζήτηση λέξης κλειδιού. Η μέθοδος αυτοματοποιημένου μαρκαρίσματος των unlabeled στοιχείων κειμένων χρησιμοποιεί μια συλλογή εγγράφων ως σύνολο απάντησης αναφοράς. Τα μέλη του συνόλου απάντησης μετατρέπονται στα διανύσματα που αντιπροσωπεύουν centroids των άγνωστων ομάδων unlabeled στοιχείων κειμένων. Τα unlabeled στοιχεία κειμένων συγκεντρώνονται σχετικά με centroids από έναν κοντινότερο αλγόριθμο γειτόνων και η ταυτότητα της σχετικής απάντησης ορίζεται σε όλα τα έγγραφα στη συστάδα. Σε αυτό το σημείο στη διαδικασία, ένας εποπτευμένος αλγόριθμος εκμάθησης μηχανών εκπαιδεύεται στα επονομαζόμενα στοιχεία, και ένας ταξινομητής για την ανάθεση των ετικετών στα νέα στοιχεία κειμένων είναι παραγωγή. Εναλλακτικά, ένας αλγόριθμος εξαγωγής χαρακτηριστικών γνωρισμάτων μπορεί να οργανωθεί στις κατηγορίες που παράγονται από το βήμα της συγκέντρωσης, και η αναζήτηση χαρακτηρίζει την παραγωγή που συντάσσει ευρετήριο τα unlabeled στοιχεία κειμένων.

 
Web www.patentalert.com

< Machine-to-machine e-commerce interface using extensible markup language

< Method for encoding the volumetric information of a virtual object and the retrieval of same

> Method for receiving and shipping items

> Recording medium with a signed hypertext recorded thereon signed hypertext generating method and apparatus and signed hypertext verifying method and apparatus

~ 00102