The invention is an apparatus and method for probabilistic determination of
population size and population overlap in data containing records on the
unique entities without unique identifiers for the unique entities and
having at least one common type of information with a known distribution
of finite expectation. A computer determines population size by
decomposing probabilistic calculations which include calculating a first
probabilistic number of unique entities needed to satisfy a first value of
the information with the known distribution, successively calculating a
probabilistic incremental number of unique entities needed for a previous
value of the information with the known distribution to increase to a
subsequent value of the information with the known distribution, until the
probabilistic number of unique entities needed to increase to a
predetermined value of the information with the known distribution is
calculated, and summing the first probabilistic number of unique entities
and the probabilistic incremental numbers of unique entities. The computer
determines population overlap of unique entities between first and second
data sets by subtracting a probabilistic incremental number of unique
entities needed for a larger total number of values of the information
with the known distribution from either of the first and second data sets
to increase to a total number of values of the information with the known
distribution in the combined data set from a smaller of the population
size of the first and second data sets.
L'invention est un matériel et une méthode pour la détermination probabiliste de la taille de population et du chevauchement de population dans les données contenant des disques sur les entités uniques sans marques uniques pour les entités uniques et ayant au moins un type commun d'information avec une distribution connue de l'espérance finie. Un ordinateur détermine la taille de population par les calculs probabilistes de décomposition qui incluent calculer un premier nombre probabiliste d'entités uniques requises pour satisfaire une première valeur d'information avec la distribution connue, calculant successivement un nombre par accroissement probabiliste d'entités uniques requises pour une valeur précédente d'information avec la distribution connue pour grimper jusqu'à une valeur suivante d'information avec la distribution connue, jusqu'à ce que le nombre probabiliste d'entités uniques ait dû grimper jusqu'à une valeur prédéterminée d'information avec la distribution connue soit calculé, et additionnant le premier nombre probabiliste d'entités uniques et les nombres par accroissement probabilistes d'entités uniques. L'ordinateur détermine le chevauchement de population des entités uniques entre d'abord et des deuxièmes Modem en soustrayant un nombre par accroissement probabiliste d'entités uniques requises pour un plus grand nombre total de valeurs d'information avec la distribution connue à partir de l'un ou l'autre des premiers et deuxièmes Modem pour grimper jusqu'à un nombre total de valeurs d'information avec la distribution connue dans le Modem combiné à partir d'un plus petit de la taille de population des premiers et deuxièmes Modem.