Method for partitioning a database containing a plurality of documents into
desired and undesired type documents, the plurality of documents
containing text and/or links to and from other documents in the database,
including: providing a source document of the desired type, the source
document including a collection of seed documents linked to more similar
documents of the desired type than to dissimilar documents of the
undesired type; providing a sink document for providing access to the
database, the sink document being generic and representative of the
database; identifying a cut-set of links which is the smallest set of
links such that removing them from the database completely disconnects the
source document and its linked documents from the sink document and its
linked documents into first and second subsets of documents, respectively;
and defining the first subset of documents as desired type documents and
the remaining documents as undesired type documents.
Método para repartir una base de datos que contiene una pluralidad de documentos en el tipo deseado e indeseado documentos, la pluralidad de documentos que contienen el texto y/o acoplamientos a y desde otros documentos en la base de datos, incluyendo: proporcionando un documento de fuente del tipo deseado, el documento de fuente incluyendo una colección de documentos de la semilla se ligó a documentos más similares del tipo deseado que a los documentos disímiles del tipo indeseado; proporcionando un documento del fregadero para proporcionar el acceso a la base de datos, el documento del fregadero que es genérico y representante de la base de datos; el identificar cortar-fijo' de acoplamientos que es el sistema más pequeño de acoplamientos tales que quitarlos de la base de datos desconectan totalmente el documento de fuente y sus documentos ligados del documento del fregadero y sus documentos ligados en primero y los segundos subconjuntos de documentos, respectivamente; y definiendo el primer subconjunto de documentos como tipo deseado documentos y de los documentos restantes como tipo indeseado documentos.