Techniques for classifying video frames using statistical models of
transform coefficients are disclosed. After optionally being decimated in
time and space, image frames are transformed using a discrete cosine
transform or Hadamard transform. The methods disclosed model image
composition and operate on grayscale images. The resulting transform
matrices are reduced using truncation, principal component analysis, or
linear discriminant analysis to produce feature vectors. Feature vectors
of training images for image classes are used to compute image class
statistical models. Once image class statistical models are derived,
individual frames are classified by the maximum likelihood resulting from
the image class statistical models. Thus, the probabilities that a feature
vector derived from a frame would be produced from each of the image class
statistical models are computed. The frame is classified into the image
class corresponding to the image class statistical model which produced
the highest probability for the feature vector derived from the frame.
Optionally, frame sequence information is taken into account by applying a
hidden Markov model to represent image class transitions from the previous
frame to the current frame. After computing all class probabilities for
all frames in the video or sequence of frames using the image class
statistical models and the image class transition probabilities, the final
class is selected as having the maximum likelihood. Previous frames are
selected in reverse order based upon their likelihood given determined
current states.
As técnicas para classificar os frames video que usam modelos estatísticos de transformam coeficientes são divulgadas. Após opcionalmente ser dizimado a tempo e o espaço, os frames da imagem são transformados usando um cosine discreto transformam ou Hadamard transforma. Os métodos divulgaram a composição modelo da imagem e operam sobre imagens do grayscale. Resultar transforma matrizes é reduzido usando o truncamento, a análise do componente principal, ou a análise discriminant linear produzir vetores da característica. Os vetores da característica de imagens do treinamento para classes da imagem são usados computar modelos estatísticos da classe da imagem. Uma vez que os modelos estatísticos da classe da imagem são derivados, os frames individuais estão classificados pela probabilidade máxima resultando dos modelos estatísticos da classe da imagem. Assim, as probabilidades que um vetor da característica derivado de um frame seria produzido de cada um dos modelos estatísticos da classe da imagem são computadas. O frame é classificado na classe da imagem que corresponde ao modelo estatístico da classe da imagem que produziu a probabilidade a mais elevada para o vetor da característica derivado do frame. Opcionalmente, a informação da seqüência do frame é feita exame no cliente aplicando um modelo escondido de Markov para representar transições da classe da imagem do frame precedente ao frame atual. Após ter computado todas as probabilidades da classe para todos os frames no vídeo ou na seqüência dos frames usando os modelos estatísticos da classe da imagem e a imagem classifique probabilidades da transição, a classe final é selecionado como tendo a probabilidade máxima. Os frames precedentes são selecionados na ordem reversa baseada em sua probabilidade dada estados atuais determinados.