Using simulated pseudo data to speed up statistical predictive modeling from massive data sets

The computational cost of many statistical modeling algorithms is affected by the input/output (I/O) cost of accessing out-of-core training data. This is an important challenge for emerging data mining applications, where the amount of training data can be potentially enormous. A heuristic approach to this problem is described. This approach is based on constructing a simple probability model from the large training data set, and using this model to generate simulated pseudo data for some aspects of the statistical modeling procedure. This approach is illustrated in the context of building a Naive Bayes probability model with feature selection. Here, the usual algorithms would require numerous data scans over the massive training data set, but our heuristic obtains models of comparable accuracy with just two data scans.
Вычислительная цена много алгоритмов статистическое моделирование повлияна на ценой вход-выхода (I/O) достигать данных по тренировки вне-$$$-SERDECNIKA. Это будет важная возможность для вытекая применений данных минируя, где количество данных по тренировки может быть потенциальн преогромно. Эвристический подход к этой проблеме описан. Этот подход основан на строить просто стохастическая модель от большого комплекта данным по тренировки, и использующ эту модель для того чтобы произвести сымитировал псевдо данные для некоторых аспектов процедуры по статистическое моделирование. Этот подход проиллюстрирован в смысле строить наивнонатуралистическое стохастическая модель bayes с выбором характеристики. Здесь, обычные алгоритмы требовали бы многочисленн разверток данных над массивнейшим комплектом данным по тренировки, но наше эвристическое получает модели соответствующей точности с как раз 2 развертками данных.

Web www.patentalert.com

< (none)

< Aquaculture method and apparatus

> Phytochrome regulated transcription factor for control of higher plant development

> (none)

~ 00035