A method and apparatus for identifying related collections of linked
documents. In the method the links from a set of related documents are
analyzed to identify a plurality of document collections. By analyzing
only the link structure, a process intensive content analysis of the
documents is avoided. A citation analysis technique, such as co-citation
analysis, is performed on the set of documents to extract link information
indicating links and link frequency between document collections. For
co-citation analysis that information would include the frequency that
both are linked to by another document collection. By using the link
information, related document collections may then be identified using a
suitable analysis technique, such as clustering or spreading activation.
Μια μέθοδος και μια συσκευή για τις σχετικές συλλογές των συνδεμένων εγγράφων. Στη μέθοδο οι συνδέσεις από ένα σύνολο σχετικών εγγράφων αναλύονται για να προσδιορίσουν μια πολλαπλότητα των συλλογών εγγράφων. Με την ανάλυση μόνο της δομής συνδέσεων, μια εντατική ανάλυση περιεχομένου διαδικασίας των εγγράφων αποφεύγεται. Μια τεχνική ανάλυσης παραπομπής, όπως η ανάλυση ομο-παραπομπής, εκτελείται στο σύνολο εγγράφων για να εξαγάγει τις πληροφορίες συνδέσεων που δείχνουν τις συνδέσεις και τη συχνότητα συνδέσεων μεταξύ των συλλογών εγγράφων. Για την ανάλυση ομο-παραπομπής ότι οι πληροφορίες θα περιελάμβαναν τη συχνότητα με την οποία και οι δύο συνδέονται από μια άλλη συλλογή εγγράφων. Με τη χρησιμοποίηση των πληροφοριών συνδέσεων, οι συλλογές σχετικών εγγράφων μπορούν έπειτα να προσδιοριστούν χρησιμοποιώντας μια κατάλληλη τεχνική ανάλυσης, όπως η συγκεντρωμένος ή διαδίδοντας ενεργοποίηση.