A computer-implemented method of gathering large quantities of training
data from case law documents (especially suitable for use as input to a
learning algorithm that is used in a subsequent process of recognizing and
distinguishing fact passages and discussion passages in additional case
law documents) has steps of: partitioning text in the documents by
headings in the documents, comparing the headings in the documents to fact
headings in a fact heading list and to discussion headings in a discussion
heading list, filtering from the documents the headings and text that is
associated with the headings, and storing (on persistent storage in a
manner adapted for input into the learning algorithm) fact training data
and discussion training data that are based on the filtered headings and
the associated text. Another method (of extracting features that are
independent of specific machine learning algorithms needed to accurately
classify case law text passages as fact passages or as discussion
passages) has steps of: determining a relative position of the text
passages in an opinion segment in the case law text, parsing the text
passages into text chunks, comparing the text chunks to predetermined
feature entities for possible matched feature entities, and associating
the relative position and matched feature entities with the text passages
for use by one of the learning algorithms. Corresponding apparatus and
computer-readable memories are also provided.
Une méthode ordinateur-mise en application de recueillir de grandes quantités de données de formation des documents de jurisprudence (particulièrement appropriés pour l'usage comme entrée à un algorithme d'étude qui est employé dans un processus suivant d'identifier et de distinguer des passages de fait et des passages de discussion dans les documents additionnels de jurisprudence) a des étapes de : divisant le texte dans les documents par des titres dans les documents, comparant les titres dans les documents aux titres de fait dans une liste de titre de fait et aux titres de discussion dans une liste de titre de discussion, filtrant des documents les titres et le texte qui est associé aux titres, et stockant (sur le stockage persistant en quelque sorte adapté pour l'entrée dans l'algorithme d'étude) les données de formation de fait et les données de formation de discussion qui sont basées sur les titres filtrés et le texte associé. Une autre méthode (d'extraire les dispositifs qui sont indépendant des algorithmes spécifiques d'étude de machine requis pour classifier exactement le texte de jurisprudence passe comme des passages de fait ou comme passages de discussion) a des étapes de : déterminant une position relative du texte passe dans un segment d'opinion dans le texte de jurisprudence, analysant le texte passe dans des gros morceaux des textes, comparant les gros morceaux des textes aux entités prédéterminées de dispositif pour les entités assorties possibles de dispositif, et associer la position relative et les entités assorties de dispositif aux passages des textes à l'usage d'un des algorithmes d'étude. Des appareils correspondants et les mémoires lisibles à la machine sont également fournis.