A parsing system and method are provided in which the break characters in
the document are used to rapidly parse the document and extract one or
more key phrases from the document which characterize the document. The
break characters in the document may include explicit break characters,
such as punctuation, soft stop words and hard stop words. The
determination of which phrases in the document are extracted depends upon
the type of break character appearing after the phrase in the document.
Ένα σύστημα και μια μέθοδος ανάλυσης παρέχονται στα οποία οι χαρακτήρες σπασιμάτων στο έγγραφο χρησιμοποιούνται για να αναλύσουν γρήγορα το έγγραφο και να εξαγάγουν μια ή περισσότερες βασικές φράσεις από το έγγραφο που χαρακτηρίζουν το έγγραφο. Οι χαρακτήρες σπασιμάτων στο έγγραφο μπορούν να περιλάβουν τους ρητούς χαρακτήρες σπασιμάτων, όπως η στίξη, οι μαλακές λέξεις στάσεων και οι σκληρές λέξεις στάσεων. Ο προσδιορισμός του οποίου οι φράσεις στο έγγραφο εξάγονται εξαρτάται από τον τύπο χαρακτήρα σπασιμάτων που εμφανίζεται μετά από τη φράση στο έγγραφο.