A system, method and software product provides for true multimedia document
retrieval by receiving multimedia queries containing various types of
data, such as text keywords, images, audio or other data types, and
processing such queries against a multimedia index that commonly indexes
multimedia documents, including any of their multimedia components. The
unified index allows query retrieval by evaluation of a query structure
which can contain any of the multimedia data types, and operators which
can be evaluated on any of these data types. The system indexes multimedia
documents by separating them into their multimedia components, and
processing each component into a number of tokens. The tokens are stored
in the index along with information identifying the documents that contain
the token, and reference data describing the position of the token within
the documents, and any other data extracted from the multimedia component
of the document, such as color, texture, luminance, recognized speech, or
the like. During retrieval, a query is decomposed into multimedia
components, which are then converted to a set of tokens and query
structure including mathematical and proximity operators. Query expansion
is used to expand the query structure to include additional tokens
corresponding to various ones of input query tokens. Because the
multimedia components are all indexed in the unified index, there is no
need to process different parts of the query against different indices and
databases in order to select documents that best satisfy the query.
Un produit de système, de méthode et de logiciel prévoit la véritable recherche documentaire de multimédia en recevant des questions de multimédia contenant de divers types des données, telles que des mots-clés des textes, des images, de l'acoustique ou d'autres types de données, et traitant de telles questions contre les multimédia classent que classe généralement des documents de multimédia, y compris n'importe lequel de leurs composants de multimédia. L'index unifié permet la récupération de question par évaluation d'une structure de question qui peut contenir n'importe lequel de ces types de données de multimédia, et des opérateurs qui peuvent être évalués sur n'importe lequel de ces types de données. Le système classe des documents de multimédia en les séparant dans leurs composants de multimédia, et en transformant chaque composant en un certain nombre de marque. La marque sont stockées dans l'index avec l'information identifiant les documents qui contiennent la marque, et des données de référence décrivant la position de la marque dans les documents, et n'importe quelles autres données extraites à partir du composant de multimédia du document, tel que la couleur, texture, luminance, ont identifié la parole, ou analogues. Pendant la récupération, une question est décomposée en composants de multimédia, qui sont alors convertis en ensemble de marque et questionnent la structure comprenant les opérateurs mathématiques et de proximité. L'expansion de question est employée pour augmenter la structure de question pour inclure la marque additionnelle correspondant à la diverse de la marque de question d'entrée. Puisque tous de multimédia les composants sont classés dans l'index unifié, il n'y a aucun besoin de traiter différentes parties de la question contre différents index et bases de données afin de choisir les documents qui satisfont mieux la question.