A database often contains sparse, i.e., under-represented, conditions which
might be not represented in a training data set for training an analytical
model if the training data set is created by stratified sampling. Sparse
conditions may be represented in a training set by using a data set which
includes essentially all of the data in a database, without stratified
sampling. A series of samples, or "windows," are used to select portions
of the large data set for phases of training. In general, the first window
of data should be a reasonably broad sample of the data. After the model
is initially trained using a first window of data, subsequent windows are
used to retrain the model. For some model types, the model is modified in
order to provide it with some retention of training obtained using
previous windows of data. Neural networks and Kohonen networks may be used
without modification. Models such as probabilistic neural networks,
generalized regression neural networks, Gaussian radial basis functions,
decision trees, including K-D trees and neural trees, are modified to
provide them with properties of memory to retain the effects of training
with previous training data sets. Such a modification may be provided
using clustering. is Parallel training models which partition the training
data set into disjoint subsets are modified so that the partitioner is
trained only on the first window of data, whereas subsequent windows are
used to train the models to which the partitioner applies the data in
parallel.
Una base de datos contiene a menudo escaso, es decir, debajo-representado, las condiciones que se pudieron no representar en un modem del entrenamiento para entrenar a un modelo analítico si el modem del entrenamiento es creado por el muestreo estratificado. Las condiciones escasas se pueden representar en un entrenamiento fijado usando un modem que incluya esencialmente todos los datos en una base de datos, sin el muestreo estratificado. Una serie de muestras, o de "ventanas," se utiliza para seleccionar porciones del modem grande por fases del entrenamiento. En general, la primera ventana de datos debe ser una muestra razonablemente amplia de los datos. Después de que el modelo se entrene inicialmente usando una primera ventana de datos, las ventanas subsecuentes se utilizan para enseñar /aprender habilidades nuevas el modelo. Para algunos tipos modelo, el modelo se modifica para proveer de él una cierta retención del entrenamiento obtenida usando ventanas anteriores de datos. Las redes de los nervios y las redes de Kohonen se pueden utilizar sin la modificación. Los modelos tales como redes de los nervios probabilistic, redes de los nervios generalizadas de la regresión, funciones radiales gaussian de la base, árboles de la decisión, incluyendo árboles de K-D y árboles de los nervios, se modifican para proveer de ellos las características de la memoria para conservar los efectos del entrenamiento con los modems anteriores del entrenamiento. Tal modificación se puede proporcionar usando arracimar. son los modelos de entrenamiento paralelos en los cuales repartieron el modem del entrenamiento desunen subconjuntos se modifican para entrenar el partitioner solamente en la primera ventana de datos, mientras que las ventanas subsecuentes se utilizan para entrenar a los modelos a los cuales el partitioner aplica los datos en paralelo.