A method and apparatus analyzes and annotates a technical talk typically
illustrated with overhead slides, wherein the slides are recorded in a
video sequence. The video sequence is condensed and digested into key
video frames adaptable for annotation to time and audio sequence. The
system comprises a recorder for recording a technical talk as a sequential
set of video image frames. A stabilizing processor segregates the video
image frames into a plurality of associated subsets each corresponding to
a distinct slide displayed at the talk and for median filtering of the
subsets for generating a key frame representative of each of the subsets.
A comparator compares the key frame with the associated subsets to
identify differences between the key frame and the associates subset which
comprise nuisances and affordances. A gesture recognizer locates, tracks
and recognizes gestures occurring in the subset as gesture affordances and
identifies a gesture video frame representative of the gesture affordance.
An integrator compiles the key frames and gesture video frames as a digest
of the video image frames which can also be annotated with the time and
audio sequence.
Une méthode et un appareil analyse et annote un entretien technique typiquement illustré avec les glissières aériennes, où les glissières sont enregistrées dans un ordre visuel. L'ordre visuel est condensé et digéré dans les armatures visuelles principales adaptables pour l'annotation pour chronométrer et l'ordre audio. Le système comporte un enregistreur pour enregistrer un entretien technique comme ensemble séquentiel d'armatures d'image visuelle. Un processeur stabilisant isole les armatures dans une pluralité de sous-ensembles associés chacune d'image visuelle qui correspond à une glissière distincte montrée à l'entretien et pour le filtrage médian des sous-ensembles pour produire d'un représentant principal d'armature de chacun des sous-ensembles. Un comparateur compare l'armature principale aux sous-ensembles associés pour identifier les différences entre l'armature principale et le sous-ensemble d'associés qui comportent des ennuis et des affordances. Un système de reconnaissance de geste localise, dépiste et identifie des gestes se produisant dans le sous-ensemble comme affordances de geste et identifie un représentant visuel d'armature de geste de l'affordance de geste. Un intégrateur compile les armatures principales et les armatures visuelles de geste car un sommaire des armatures d'image visuelle qui peuvent également être annotées avec du temps et l'ordre audio.