Method and system for video browsing and editing by employing audio page

A system for browsing and editing video, in accordance with the present invention, includes a video source for providing a video document which includes audio information, and an audio classifier coupled to the video source, the audio classifier being adapted to classify audio segments of the audio information into a plurality of classes. An audio spectrogram generator is coupled to the video source for generating spectrograms for the audio information to check that the audio segments have been identified correctly by the audio classifier. A browser is coupled to the audio classifier for searching the classified audio segments for editing and browsing the video document. A method for editing and browsing a video, in accordance with the invention, includes providing a video clip including audio, and segmenting and labeling the audio into music, silence and speech classes in real-time. The step of determining pitch for the speech class to identify and check changes in speakers and browsing the changes in speaker and the audio labels to associate the changes in speaker and the audio labels with frames of the video clip are also included.

Een systeem om en het uitgeven video, overeenkomstig de onderhavige uitvinding te doorbladeren, omvat een videobron voor het verstrekken van een videodocument dat audioinformatie, en een audioclassificator omvat die aan de videobron wordt, de audioclassificator die wordt aangepast gekoppeld om audiosegmenten van de audioinformatie in een meerderheid van klassen te classificeren. Een audiospectrogramgenerator wordt gekoppeld aan de videobron voor het produceren van spectrogrammen voor de audioinformatie om te controleren dat de audiosegmenten correct door de audioclassificator zijn geïdentificeerd. Browser wordt gekoppeld aan de audioclassificator voor het zoeken van de geclassificeerde audiosegmenten naar het uitgeven en het doorbladeren van het videodocument. Een methode om een video, overeenkomstig de uitvinding uit te geven en te doorbladeren, omvat het verstrekken van een videoklem met inbegrip van audio, en het segmenteren van en de etikettering van de audio in muziek, stilte en toespraakklassen in real time. De stap van het bepalen van hoogte voor de toespraakklasse om veranderingen in sprekers te identificeren en te controleren en het doorbladeren van de veranderingen in spreker en de audioetiketten om de veranderingen in spreker en de audioetiketten met kaders van de videoklem te associëren is ook inbegrepen.