The computational cost of many statistical modeling algorithms is affected
by the input/output (I/O) cost of accessing out-of-core training data.
This is an important challenge for emerging data mining applications,
where the amount of training data can be potentially enormous. A heuristic
approach to this problem is described. This approach is based on
constructing a simple probability model from the large training data set,
and using this model to generate simulated pseudo data for some aspects of
the statistical modeling procedure. This approach is illustrated in the
context of building a Naive Bayes probability model with feature
selection. Here, the usual algorithms would require numerous data scans
over the massive training data set, but our heuristic obtains models of
comparable accuracy with just two data scans.
Вычислительная цена много алгоритмов статистическое моделирование повлияна на ценой вход-выхода (I/O) достигать данных по тренировки вне-$$$-SERDECNIKA. Это будет важная возможность для вытекая применений данных минируя, где количество данных по тренировки может быть потенциальн преогромно. Эвристический подход к этой проблеме описан. Этот подход основан на строить просто стохастическая модель от большого комплекта данным по тренировки, и использующ эту модель для того чтобы произвести сымитировал псевдо данные для некоторых аспектов процедуры по статистическое моделирование. Этот подход проиллюстрирован в смысле строить наивнонатуралистическое стохастическая модель bayes с выбором характеристики. Здесь, обычные алгоритмы требовали бы многочисленн разверток данных над массивнейшим комплектом данным по тренировки, но наше эвристическое получает модели соответствующей точности с как раз 2 развертками данных.