A method is provided for data classification that achieves improved
interpretability and accuracy while preserving the efficiency and
scalability of univariate decision trees. To build a compact decision
tree, the method searches for clusters in subspaces to enable multivariate
splitting based on weighted distances to such a cluster. To classify an
instance more accurately, the method performs a nearest neighbor (NN)
search among the potential nearest leaf nodes of the instance. The
similarity measure used in the NN search is based on Euclidean distances
defined in different subspaces for different leaf nodes. Since instances
are scored by their similarity to a certain class, this approach provides
an effective means for target selection that is not supported well by
conventional decision trees.
Um método é fornecido para a classificação dos dados que consegue o interpretability e a exatidão melhorados ao preservar a eficiência e o scalability de árvores univariate da decisão. Para construir uma árvore compacta da decisão, o método procurara por conjuntos nos subspaces para permitir rachar multivariate baseado em distâncias tornadas mais pesadas a tal conjunto. Para classificar mais exatamente um exemplo, o método executa uma busca (NN) vizinha a mais próxima entre os nós os mais próximos potenciais da folha do exemplo. A medida da similaridade usada na busca de NN é baseada nas distâncias euclidean definidas em subspaces diferentes para nós diferentes da folha. Desde que os exemplos são marcados por sua similaridade a alguma classe, esta aproximação fornece meios eficazes para a seleção do alvo que não é suportada bem por árvores convencionais da decisão.