A data classification method and apparatus are disclosed for labeling
unknown objects. The disclosed data classification system employs a model
selection technique that characterizes domains and identifies the degree
of match between the domain meta-features and the learning bias of the
algorithm under analysis. An improved concept variation meta-feature or an
average weighted distance meta-feature, or both, are used to fully
discriminate learning performance, as well as conventional meta-features.
The "concept variation" meta-feature measures the amount of concept
variation or the degree of lack of structure of a concept. The present
invention extends conventional notions of concept variation to allow for
numeric and categorical features, and estimates the variation of the whole
example population through a training sample. The "average weighted
distance" meta-feature of the present invention measures the density of
the distribution in the training set. While the concept variation
meta-feature is high for a training set comprised of only two examples
having different class labels, the average weighted distance can
distinguish between examples that are too far apart or too close to one
other.
Eine Datenklassifikationmethode und -apparat werden für beschriftende unbekannte Gegenstände freigegeben. Das freigegebene Datenklassifizierungssystem setzt eine vorbildliche Vorwählertechnik ein, die Gebiete kennzeichnet und den Grad des Gleichen zwischen den Gebiet Metaeigenschaften und der erlernenvorspannung des Algorithmus unter Analyse kennzeichnet. Eine verbesserte Konzeptveränderung Metaeigenschaft oder eine durchschnittliche belastete Abstand Metaeigenschaft oder beide, werden benutzt, um erlernenleistung, sowie herkömmliche Metaeigenschaften völlig abzusondern. Die "Konzeptveränderung" Metaeigenschaft mißt die Menge von Konzeptveränderung oder den Grad des Mangels an Struktur eines Konzeptes. Die anwesende Erfindung verlängert herkömmliche Begriffe der Konzeptveränderung, um die numerischen und kategorischen Eigenschaften zuzulassen und schätzt die Veränderung der vollständigen Beispielbevölkerung durch eine Training Probe. Die "durchschnittlicher belasteter Abstand" Metaeigenschaft der Geschenkerfindung mißt die Dichte der Verteilung im Training Satz. Während die Konzeptveränderung Metaeigenschaft für einen Training Satz hoch ist, der von nur zwei Beispielen enthalten wird, die unterschiedliche Kategorie Aufkleber haben, kann der durchschnittliche belastete Abstand zwischen Beispielen unterscheiden, die oder auch nah an einem anderem zu weites getrennt sind.