Sampling for aggregation queries

   
   

Aggregation queries are performed by first identifying outlier values, aggregating the outlier values, and sampling the remaining data after pruning the outlier values. The sampled data is extrapolated and added to the aggregated outlier values to provide an estimate for each aggregation query. Outlier values are identified by selecting values outside of a selected sliding window of data having the lowest variance. An index is created for the outlier values. The outlier data is removed from the window of data, and separately aggregated. The remaining data without the outliers is then sampled in one of many known ways to provide a statistically relevant sample that is then aggregated and extrapolated to provide an estimate for the remaining data. This sampled estimate is combined with the outlier aggregate to form an estimate for the entire set of data. Further methods involve the use of weighted sampling and weighted selection of outlier values for low selectivity queries, or queries having group by.

Queries комплексирования выполнены первыми определяя значениями останца, суммирующ значения останца, и пробующ остальные данные после подрезать значения останца. Попробованные данные экстраполированы и добавлены к суммированным значениям останца для того чтобы обеспечить предварительный подчет для каждого query комплексирования. Значения останца определены путем выбирать значения снаружи выбранного сползая окна данных имея самое низкое отклонение. Индекс создан для значений останца. Данные по останца извлечутся от окна данных, и отдельно суммируются. Остальные данные без останцов после этого попробованы в одной из много знанных дорог обеспечить статистически уместный образец после этого суммирован и экстраполирован для того чтобы обеспечить предварительный подчет для остальных данных. Это попробованный предварительный подчет совмещено с компоситом останца для того чтобы сформировать предварительный подчет для всего комплекта данных. Более дополнительные методы включают пользу утяжеленного забора и утяжеленного выбора значений останца для низких queries селективности, или queries имея группу мимо.

 
Web www.patentalert.com

< State management of server-side control objects

< Program-interface converter for multiple-platform computer systems

> Method and apparatus for terminal server addressability via URL specification

> System and method of providing multiple installation actions

~ 00155