A window of letters is identified within a text sample input. If the window contains matches to reference letter sequences (RLS) contained in multiple sets of n-gram language profiles (profiles), then the longest match is kept and scored for each language. Scoring each language is based on frequency parameters of the matched RLS in profiles for each language. The window is incrementally shifted through the sample and the matching and scoring is done on the letters within the window. At the end of the sample input, the language having the highest cumulative score is identified as the sample's language. Scoring may be improved by restricting the RLS within longer profiles to be full words, using two passes where the second pass disregards languages that are not scored near the highest scoring language during the first pass, favoring matched RLS within profiles of complete words during scoring, favoring longer matched RLS within profiles during scoring, and increasing a score of a match that does not frequently appear in many languages. The profiles may be enhanced by removing some of the RLS if the frequency of the RLS does not meet a predefined threshold and a variable threshold.

Ένα παράθυρο των επιστολών προσδιορίζεται μέσα σε μια εισαγωγή δειγμάτων κειμένων. Εάν το παράθυρο περιέχει τις αντιστοιχίες στις ακολουθίες επιστολών αναφοράς (RLS) που περιλαμβάνονται στα πολυάριθμα σύνολα γλωσσικών σχεδιαγραμμάτων ν-γραμμαρίου (σχεδιαγράμματα), κατόπιν η πιό μακροχρόνια αντιστοιχία κρατιέται και σημειώνεται για κάθε γλώσσα. Η σημείωση κάθε γλώσσας είναι βασισμένη στις παραμέτρους συχνότητας του αντιστοιχημένου RLS στα σχεδιαγράμματα για κάθε γλώσσα. Το παράθυρο μετατοπίζεται επαυξητικά μέσω του δείγματος και το ταίριασμα και η σημείωση γίνονται στις επιστολές μέσα στο παράθυρο. Στο τέλος της εισαγωγής δειγμάτων, η γλώσσα που έχει το υψηλότερο συσσωρευτικό αποτέλεσμα προσδιορίζεται ως γλώσσα του δείγματος. Η σημείωση μπορεί να βελτιωθεί με τον περιορισμό του RLS μέσα στα πιό μακροχρόνια σχεδιαγράμματα για να είναι πλήρεις λέξεις, χρησιμοποιώντας δύο περάσματα όπου το δεύτερο πέρασμα δεν λαμβάνει υπόψη τις γλώσσες που δεν σημειώνονται κοντά στην υψηλότερη γλώσσα σημείωσης κατά τη διάρκεια του πρώτου περάσματος, εύνοια αντιστοιχημένου RLS μέσα στα σχεδιαγράμματα των πλήρων λέξεων κατά τη διάρκεια της σημείωσης, εύνοια μακρύτερου αντιστοιχημένου RLS μέσα στα σχεδιαγράμματα κατά τη διάρκεια της σημείωσης, και αύξηση ενός αποτελέσματος μιας αντιστοιχίας που δεν εμφανίζεται συχνά σε πολλές γλώσσες. Τα σχεδιαγράμματα μπορούν να ενισχυθούν με την αφαίρεση μερικών από το RLS εάν η συχνότητα του RLS δεν συναντά ένα προκαθορισμένο κατώτατο όριο και ένα μεταβλητό κατώτατο όριο.

 
Web www.patentalert.com

< (none)

< System and method for interaction between one or more desktop computers and one or more mobile devices

> Incremental update for dynamic/animated textures on three-dimensional models

> (none)

~ 00010