The method of this invention identifies distinctive items of information
from a larger body of information on the basis of similarities or
dissimilarities among the items and achieves a significant increase in
speed as well as the ability to balance the representativeness and
diversity among the identified items by applying selection criteria to
randomly chosen subsamples of all the information. The method is
illustrated with reference to the compound selection requirements of
medicinal chemists. Compound selection methods currently available to
chemists are based on maximum or minimum dissimilarity selection or on
hierarchical clustering. The method of the invention is more general and
incorporates maximum and minimum dissimilarity-based selection as special
cases. In addition, the number of iterations required to select the items
is a multiple of the group size which, at its greatest, is approximately
the square root of the population size. Thus, the selection method runs
much faster than the methods of the prior art. Further, by adjusting the
subsample size parameter K, it is possible to control the balance between
representativeness and diversity in the compounds selected. In addition,
the method can mimic the distributional properties of selections based on
hierarchical clustering and, at least in some cases, improve upon them.
Il metodo di questa invenzione identifica gli articoli distintivi delle informazioni da un più grande corpo delle informazioni in base alle somiglianze o alle diversità fra gli articoli e realizza un aumento significativo nella velocità così come la capacità di equilibrare la rappresentatività e la diversità fra gli articoli identificati applicando i criteri di selezione ai sottocampioni a caso scelti di tutte le informazioni. Il metodo è illustrato per quanto riguarda i criteri di selezione compound dei chimici medicinali. I metodi compound di selezione attualmente disponibili ai chimici sono basati sulla selezione massima o minima di diversità o sul ragruppare gerarchico. Il metodo dell'invenzione è più generale e comprende il massimo e la selezione diversità-basata minimo come casi speciali. In più, il numero di ripetizioni richieste per selezionare gli articoli è un multiplo del formato del gruppo che, al relativo più grande, è approssimativamente la radice quadrata del formato della popolazione. Quindi, il metodo di selezione funziona molto più velocemente dei metodi dell'arte anteriore. Più ulteriormente, registrando il parametro K di formato del sottocampione, è possibile controllare l'equilibrio fra la rappresentatività e la diversità nei residui selezionati. In più, il metodo può imitare le proprietà distributive delle selezioni basate sul ragruppare gerarchico e, almeno in alcuni casi, migliorare su loro.