A system for browsing and editing video, in accordance with the present
invention, includes a video source for providing a video document which
includes audio information, and an audio classifier coupled to the video
source, the audio classifier being adapted to classify audio segments of
the audio information into a plurality of classes. An audio spectrogram
generator is coupled to the video source for generating spectrograms for
the audio information to check that the audio segments have been
identified correctly by the audio classifier. A browser is coupled to the
audio classifier for searching the classified audio segments for editing
and browsing the video document. A method for editing and browsing a
video, in accordance with the invention, includes providing a video clip
including audio, and segmenting and labeling the audio into music, silence
and speech classes in real-time. The step of determining pitch for the
speech class to identify and check changes in speakers and browsing the
changes in speaker and the audio labels to associate the changes in
speaker and the audio labels with frames of the video clip are also
included.
Een systeem om en het uitgeven video, overeenkomstig de onderhavige uitvinding te doorbladeren, omvat een videobron voor het verstrekken van een videodocument dat audioinformatie, en een audioclassificator omvat die aan de videobron wordt, de audioclassificator die wordt aangepast gekoppeld om audiosegmenten van de audioinformatie in een meerderheid van klassen te classificeren. Een audiospectrogramgenerator wordt gekoppeld aan de videobron voor het produceren van spectrogrammen voor de audioinformatie om te controleren dat de audiosegmenten correct door de audioclassificator zijn geïdentificeerd. Browser wordt gekoppeld aan de audioclassificator voor het zoeken van de geclassificeerde audiosegmenten naar het uitgeven en het doorbladeren van het videodocument. Een methode om een video, overeenkomstig de uitvinding uit te geven en te doorbladeren, omvat het verstrekken van een videoklem met inbegrip van audio, en het segmenteren van en de etikettering van de audio in muziek, stilte en toespraakklassen in real time. De stap van het bepalen van hoogte voor de toespraakklasse om veranderingen in sprekers te identificeren en te controleren en het doorbladeren van de veranderingen in spreker en de audioetiketten om de veranderingen in spreker en de audioetiketten met kaders van de videoklem te associëren is ook inbegrepen.