A window of letters is identified within a text sample input. If the window
contains matches to reference letter sequences (RLS) contained in multiple
sets of n-gram language profiles (profiles), then the longest match is
kept and scored for each language. Scoring each language is based on
frequency parameters of the matched RLS in profiles for each language. The
window is incrementally shifted through the sample and the matching and
scoring is done on the letters within the window. At the end of the sample
input, the language having the highest cumulative score is identified as
the sample's language. Scoring may be improved by restricting the RLS
within longer profiles to be full words, using two passes where the second
pass disregards languages that are not scored near the highest scoring
language during the first pass, favoring matched RLS within profiles of
complete words during scoring, favoring longer matched RLS within profiles
during scoring, and increasing a score of a match that does not frequently
appear in many languages. The profiles may be enhanced by removing some of
the RLS if the frequency of the RLS does not meet a predefined threshold
and a variable threshold.
Ένα παράθυρο των επιστολών προσδιορίζεται μέσα σε μια εισαγωγή δειγμάτων κειμένων. Εάν το παράθυρο περιέχει τις αντιστοιχίες στις ακολουθίες επιστολών αναφοράς (RLS) που περιλαμβάνονται στα πολυάριθμα σύνολα γλωσσικών σχεδιαγραμμάτων ν-γραμμαρίου (σχεδιαγράμματα), κατόπιν η πιό μακροχρόνια αντιστοιχία κρατιέται και σημειώνεται για κάθε γλώσσα. Η σημείωση κάθε γλώσσας είναι βασισμένη στις παραμέτρους συχνότητας του αντιστοιχημένου RLS στα σχεδιαγράμματα για κάθε γλώσσα. Το παράθυρο μετατοπίζεται επαυξητικά μέσω του δείγματος και το ταίριασμα και η σημείωση γίνονται στις επιστολές μέσα στο παράθυρο. Στο τέλος της εισαγωγής δειγμάτων, η γλώσσα που έχει το υψηλότερο συσσωρευτικό αποτέλεσμα προσδιορίζεται ως γλώσσα του δείγματος. Η σημείωση μπορεί να βελτιωθεί με τον περιορισμό του RLS μέσα στα πιό μακροχρόνια σχεδιαγράμματα για να είναι πλήρεις λέξεις, χρησιμοποιώντας δύο περάσματα όπου το δεύτερο πέρασμα δεν λαμβάνει υπόψη τις γλώσσες που δεν σημειώνονται κοντά στην υψηλότερη γλώσσα σημείωσης κατά τη διάρκεια του πρώτου περάσματος, εύνοια αντιστοιχημένου RLS μέσα στα σχεδιαγράμματα των πλήρων λέξεων κατά τη διάρκεια της σημείωσης, εύνοια μακρύτερου αντιστοιχημένου RLS μέσα στα σχεδιαγράμματα κατά τη διάρκεια της σημείωσης, και αύξηση ενός αποτελέσματος μιας αντιστοιχίας που δεν εμφανίζεται συχνά σε πολλές γλώσσες. Τα σχεδιαγράμματα μπορούν να ενισχυθούν με την αφαίρεση μερικών από το RLS εάν η συχνότητα του RLS δεν συναντά ένα προκαθορισμένο κατώτατο όριο και ένα μεταβλητό κατώτατο όριο.