System and process for identifying and locating people or objects in a scene by selectively clustering three-dimensional regions page

The present invention is embodied in a system and process for identifying and locating people and objects of interest in a scene by selectively clustering distinct three-dimensional regions or "blobs" within the scene and comparing the blob clusters to a model. Specifically, a background subtraction process is used to generate a working image from a baseline depth image and a live depth image of the scene. Distinct blobs in the working image are selectively clustered to generate "candidate blob clusters" which are then compared to a model representing the people or objects of interest. The comparison of candidate blob clusters to the model identifies the blob clusters that most accurately represent the people or objects of interest in the scene by determining the closest match or matches to the model. Blob clusters may be compared to a plurality of models representing people or objects of different sizes and shapes. Sequential live depth images may be captured and analyzed in real-time using the system and process of the present invention to provide for continuous identification and location of people or objects as a function of time.

La actual invención es incorporada a un sistema y un proceso para identificar y localizar a gente y objetos del interés en una escena selectivamente arracimando regiones o "gotas tridimensionales distintas" dentro de la escena y comparando los racimos de la gota a un modelo. Específicamente, un proceso de la substracción del fondo se utiliza para generar una imagen de trabajo de una imagen de la profundidad de la línea de fondo y de una imagen viva de la profundidad de la escena. Las gotas distintas en la imagen de trabajo se arraciman selectivamente para generar "los racimos de la gota del candidato" que entonces se comparan a un modelo que representa la gente o los objetos del interés. La comparación de los racimos de la gota del candidato al modelo identifica los racimos de la gota que representan lo más exactamente posible la gente o los objetos del interés en la escena determinando el fósforo o los fósforos más cercanos al modelo. Los racimos de la gota se pueden comparar a una pluralidad de modelos que representan la gente o los objetos de diversos tamaños y formas. Las imágenes vivas secuenciales de la profundidad se pueden capturar y analizar en tiempo real usando el sistema y el proceso de la actual invención para prever la identificación y la localización continuas de la gente o de objetos en función de tiempo.