Aggregation queries are performed by first identifying outlier values,
aggregating the outlier values, and sampling the remaining data after
pruning the outlier values. The sampled data is extrapolated and added to
the aggregated outlier values to provide an estimate for each aggregation
query. Outlier values are identified by selecting values outside of a
selected sliding window of data having the lowest variance. An index is
created for the outlier values. The outlier data is removed from the
window of data, and separately aggregated. The remaining data without the
outliers is then sampled in one of many known ways to provide a
statistically relevant sample that is then aggregated and extrapolated to
provide an estimate for the remaining data. This sampled estimate is
combined with the outlier aggregate to form an estimate for the entire set
of data. Further methods involve the use of weighted sampling and weighted
selection of outlier values for low selectivity queries, or queries having
group by.
Queries комплексирования выполнены первыми определяя значениями останца, суммирующ значения останца, и пробующ остальные данные после подрезать значения останца. Попробованные данные экстраполированы и добавлены к суммированным значениям останца для того чтобы обеспечить предварительный подчет для каждого query комплексирования. Значения останца определены путем выбирать значения снаружи выбранного сползая окна данных имея самое низкое отклонение. Индекс создан для значений останца. Данные по останца извлечутся от окна данных, и отдельно суммируются. Остальные данные без останцов после этого попробованы в одной из много знанных дорог обеспечить статистически уместный образец после этого суммирован и экстраполирован для того чтобы обеспечить предварительный подчет для остальных данных. Это попробованный предварительный подчет совмещено с компоситом останца для того чтобы сформировать предварительный подчет для всего комплекта данных. Более дополнительные методы включают пользу утяжеленного забора и утяжеленного выбора значений останца для низких queries селективности, или queries имея группу мимо.