Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models page

Techniques for classifying video frames using statistical models of transform coefficients are disclosed. After optionally being decimated in time and space, image frames are transformed using a discrete cosine transform or Hadamard transform. The methods disclosed model image composition and operate on grayscale images. The resulting transform matrices are reduced using truncation, principal component analysis, or linear discriminant analysis to produce feature vectors. Feature vectors of training images for image classes are used to compute image class statistical models. Once image class statistical models are derived, individual frames are classified by the maximum likelihood resulting from the image class statistical models. Thus, the probabilities that a feature vector derived from a frame would be produced from each of the image class statistical models are computed. The frame is classified into the image class corresponding to the image class statistical model which produced the highest probability for the feature vector derived from the frame. Optionally, frame sequence information is taken into account by applying a hidden Markov model to represent image class transitions from the previous frame to the current frame. After computing all class probabilities for all frames in the video or sequence of frames using the image class statistical models and the image class transition probabilities, the final class is selected as having the maximum likelihood. Previous frames are selected in reverse order based upon their likelihood given determined current states.

As técnicas para classificar os frames video que usam modelos estatísticos de transformam coeficientes são divulgadas. Após opcionalmente ser dizimado a tempo e o espaço, os frames da imagem são transformados usando um cosine discreto transformam ou Hadamard transforma. Os métodos divulgaram a composição modelo da imagem e operam sobre imagens do grayscale. Resultar transforma matrizes é reduzido usando o truncamento, a análise do componente principal, ou a análise discriminant linear produzir vetores da característica. Os vetores da característica de imagens do treinamento para classes da imagem são usados computar modelos estatísticos da classe da imagem. Uma vez que os modelos estatísticos da classe da imagem são derivados, os frames individuais estão classificados pela probabilidade máxima resultando dos modelos estatísticos da classe da imagem. Assim, as probabilidades que um vetor da característica derivado de um frame seria produzido de cada um dos modelos estatísticos da classe da imagem são computadas. O frame é classificado na classe da imagem que corresponde ao modelo estatístico da classe da imagem que produziu a probabilidade a mais elevada para o vetor da característica derivado do frame. Opcionalmente, a informação da seqüência do frame é feita exame no cliente aplicando um modelo escondido de Markov para representar transições da classe da imagem do frame precedente ao frame atual. Após ter computado todas as probabilidades da classe para todos os frames no vídeo ou na seqüência dos frames usando os modelos estatísticos da classe da imagem e a imagem classifique probabilidades da transição, a classe final é selecionado como tendo a probabilidade máxima. Os frames precedentes são selecionados na ordem reversa baseada em sua probabilidade dada estados atuais determinados.