An economic, scalable machine learning system and process perform document
(concept) classification with high accuracy using large topic schemes,
including large hierarchical topic schemes. One or more highly relevant
classification topics is suggested for a-given document (concept) to be
classified. The invention includes training and concept classification
processes. The invention also provides methods that may be used as part of
the training and/or concept classification processes, including: a method
of scoring the relevance of features in training concepts, a method of
ranking concepts based on relevance score, and a method of voting on
topics associated with an input concept. In a preferred embodiment, the
invention is applied to the legal (case law) domain, classifying legal
concepts (rules of law) according to a proprietary legal topic
classification scheme (a hierarchical scheme of areas of law).
Een economisch, scalable machine het leren systeem en een proces voeren document (concept) classificatie met hoge nauwkeurigheid uit gebruikend grote onderwerpregelingen, met inbegrip van grote hiërarchische onderwerpregelingen. Één of meerdere hoogst relevante classificatieonderwerpen wordt voor a-gegeven te classificeren document (concept) voorgesteld. De uitvinding omvat opleiding en concept classificatieprocessen. De uitvinding verstrekt ook methodes die als deel van de opleiding en/of concept classificatieprocessen kunnen worden gebruikt, die omvatten: een methode om de relevantie van eigenschappen in opleidingsconcepten te noteren, een methode om concepten te rangschikken die op relevantiescore worden gebaseerd, en een methode om over onderwerpen te stemmen verbonden aan een inputconcept. In een aangewezen belichaming, wordt de uitvinding toegepast op het wettelijke (jurisprudentie) domein, classificerend wettelijke concepten (rechtsstaat) volgens een merkgebonden wettelijke regeling van de onderwerpclassificatie (een hiërarchische regeling van gebieden van wet).