Searching a file in a format unsupported by a search engine by creating
term-topic links with associated probabilities. A file is retrieved
comprising a compressed HTML file or a webpage. The file is parsed to
retrieve data associated with title tags and body tags. In addition, user
queries are received so that the user may associate a query with the title
data. Term-topic links are created by linking terms from the retrieved
data and the query with a topic. Heuristics are then used to determine the
probability associated with each term-topic link. Term-topic links having
a term containing nouns are assigned a higher probability than verbs,
verbs are assigned a higher probability than adjectives, and adjectives
and adverbs are assigned the same probability. The term-topic links are
trained by adjusting the assigned probabilities based on a user defined
query and an associated target topic.
Η έρευνα ενός αρχείου σε ένα σχήμα αστήρικτο από μια μηχανή αναζήτησης με τη δημιουργία του όρος-θέματος συνδέει με τις σχετικές πιθανότητες. Ένα αρχείο ανακτάται περιλαμβάνοντας ένα συμπιεσμένο αρχείο HTML ή ένα webpage. Το αρχείο αναλύεται για να ανακτήσει τα στοιχεία που συνδέονται με τις ετικέττες τίτλου και τις ετικέττες σωμάτων. Επιπλέον, οι ερωτήσεις χρηστών παραλαμβάνονται έτσι ώστε ο χρήστης μπορεί να συνδέσει μια ερώτηση με τα στοιχεία τίτλου. Οι συνδέσεις όρος-θέματος δημιουργούνται με τη σύνδεση των όρων από τα ανακτημένα στοιχεία και την ερώτηση με ένα θέμα. Heuristics χρησιμοποιείται έπειτα για να καθορίσει την πιθανότητα που συνδέεται με κάθε σύνδεση όρος-θέματος. Στις συνδέσεις όρος-θέματος που έχουν έναν όρο που περιέχει τα ουσιαστικά ορίζεται μια υψηλότερη πιθανότητα από τα ρήματα, στα ρήματα ορίζεται μια υψηλότερη πιθανότητα από τα επίθετα, και στα επίθετα και στα επιρρήματα ορίζεται η ίδια πιθανότητα. Οι συνδέσεις όρος-θέματος εκπαιδεύονται με τη ρύθμιση των ορισμένων πιθανοτήτων βασισμένων σε μια καθορισμένη χρήστης ερώτηση και ένα σχετικό θέμα στόχων.