System and method for extracting text captions from video and generating video summaries page

Caption boxes which are embedded in video content can be located and the text within the caption boxes decoded. Real time processing is enhanced by locating caption box regions in the compressed video domain (210) and performing pixel based processing operations within the region of the video frame in which a caption box is located. The captions boxes are further refined by identifying word regions (240) within the caption boxes and then applying character and word recognition processing (250) to the identified word regions. Domain based models are used to improve text recognition results. The extracted caption box text can be used to detect events of interest in the video content and a semantic model applied to extract a segment of video of the event of interest.

Subtitule las cajas que se encajan en el contenido video pueden ser localizadas y el texto dentro de las cajas del subtítulo descifradas. El proceso en tiempo real es realzado localizando regiones de la caja del subtítulo en el dominio video comprimido (210) y realizando operaciones de proceso basadas pixel dentro de la región del bastidor video en el cual una caja del subtítulo está situada. Las cajas de los subtítulos son refinadas más a fondo identificando las regiones de la palabra (240) dentro de las cajas del subtítulo y después aplicando el reconocimiento del carácter y de palabra que procesa (250) a las regiones identificadas de la palabra. Los modelos basados dominio se utilizan para mejorar resultados del reconocimiento del texto. El texto extraído de la caja del subtítulo se puede utilizar para detectar acontecimientos del interés en el contenido video y un modelo semántico aplicados para extraer un segmento del vídeo del acontecimiento del interés.