A method and apparatus for classifying textual data is provided. The
invention is adapted to automatically classify text. In particular, the
invention utilizes a sparse vector framework to evaluate natural language
text and to accurately and automatically assign that text to a
predetermined classification. This can be done even where the disclosed
system has not seen an example of the exact text before. The disclosed
method and apparatus are particularly well-suited for coding adverse event
reports, commonly referred to as "verbatims," generated during clinical
trials of pharmaceuticals, The invention also provides a method and
apparatus that can be used to translate verbatims that have already been
classified according to one coding scheme to be translated to another
coding scheme in a highly automated process.
Μια μέθοδος και μια συσκευή για τα κειμενικά στοιχεία παρέχονται. Η εφεύρεση προσαρμόζεται για να ταξινομήσει αυτόματα το κείμενο. Ειδικότερα, η εφεύρεση χρησιμοποιεί ένα αραιό διανυσματικό πλαίσιο για να αξιολογήσει το κείμενο φυσικής γλώσσας και ακριβώς και αυτόματα να ορίσει εκείνο το κείμενο σε μια προκαθορισμένη ταξινόμηση. Αυτό μπορεί να γίνει ακόμη και όπου το αποκαλυπτόμενο σύστημα δεν έχει δει ένα παράδειγμα του ακριβούς κειμένου πριν. Η αποκαλυπτόμενες μέθοδος και οι συσκευές είναι ιδιαίτερα καλοταιριασμένες για τις δυσμενείς εκθέσεις γεγονότος, που αναφέρονται συνήθως ως "verbatims," παραγμένος κατά τη διάρκεια των κλινικών δοκιμών των φαρμακευτικών ειδών, η εφεύρεση παρέχει επίσης μια μέθοδο και μια συσκευή που μπορούν να χρησιμοποιηθούν για να μεταφράσουν verbatims ότι έχει ταξινομηθεί ήδη σύμφωνα με ένα σχέδιο κωδικοποίησης που μεταφράζεται σε ένα άλλο σχέδιο κωδικοποίησης σε μια ιδιαίτερα αυτοματοποιημένη διαδικασία.