The invention is an apparatus and method for probabilistic determination of population size and population overlap in data containing records on the unique entities without unique identifiers for the unique entities and having at least one common type of information with a known distribution of finite expectation. A computer determines population size by decomposing probabilistic calculations which include calculating a first probabilistic number of unique entities needed to satisfy a first value of the information with the known distribution, successively calculating a probabilistic incremental number of unique entities needed for a previous value of the information with the known distribution to increase to a subsequent value of the information with the known distribution, until the probabilistic number of unique entities needed to increase to a predetermined value of the information with the known distribution is calculated, and summing the first probabilistic number of unique entities and the probabilistic incremental numbers of unique entities. The computer determines population overlap of unique entities between first and second data sets by subtracting a probabilistic incremental number of unique entities needed for a larger total number of values of the information with the known distribution from either of the first and second data sets to increase to a total number of values of the information with the known distribution in the combined data set from a smaller of the population size of the first and second data sets.

L'invention est un matériel et une méthode pour la détermination probabiliste de la taille de population et du chevauchement de population dans les données contenant des disques sur les entités uniques sans marques uniques pour les entités uniques et ayant au moins un type commun d'information avec une distribution connue de l'espérance finie. Un ordinateur détermine la taille de population par les calculs probabilistes de décomposition qui incluent calculer un premier nombre probabiliste d'entités uniques requises pour satisfaire une première valeur d'information avec la distribution connue, calculant successivement un nombre par accroissement probabiliste d'entités uniques requises pour une valeur précédente d'information avec la distribution connue pour grimper jusqu'à une valeur suivante d'information avec la distribution connue, jusqu'à ce que le nombre probabiliste d'entités uniques ait dû grimper jusqu'à une valeur prédéterminée d'information avec la distribution connue soit calculé, et additionnant le premier nombre probabiliste d'entités uniques et les nombres par accroissement probabilistes d'entités uniques. L'ordinateur détermine le chevauchement de population des entités uniques entre d'abord et des deuxièmes Modem en soustrayant un nombre par accroissement probabiliste d'entités uniques requises pour un plus grand nombre total de valeurs d'information avec la distribution connue à partir de l'un ou l'autre des premiers et deuxièmes Modem pour grimper jusqu'à un nombre total de valeurs d'information avec la distribution connue dans le Modem combiné à partir d'un plus petit de la taille de population des premiers et deuxièmes Modem.

 
Web www.patentalert.com

< (none)

< System, method and computer program product for searching for, and retrieving, profile attributes based on other target profile attributes and associated profiles

> Time-stamped tamper-proof data storage

> (none)

~ 00048