Cluster- and pruning-based language model compression is disclosed. In one
embodiment, a language model is first clustered, such as by using
predictive clustering. The language model after clustering has a larger
size than it did before clustering. The language model is then pruned,
such as by using entropy-based techniques, such as Rosenfeld pruning, or
by using Stolcke pruning or count-cutoff techniques. In one particular
embodiment, a word language model is first predictively clustered by a
technique described as P(Z.vertline.xy).times.P(z.vertline.xyZ), where a
lower-case letter refers to a word, and an upper-cluster letter refers to
a cluster in which the word resides.
Συστάδα - και η περικοπή-βασισμένη στο γλωσσική πρότυπη συμπίεση αποκαλύπτεται. Σε μια ενσωμάτωση, ένα γλωσσικό πρότυπο συγκεντρώνεται αρχικά, όπως με τη χρησιμοποίηση της προφητικής συγκέντρωσης. Το γλωσσικό πρότυπο αφότου έχει η συγκέντρωση ένα μεγαλύτερο μέγεθος από αυτό έκανε πρίν συγκεντρώνεται. Το γλωσσικό πρότυπο κλαδεύεται έπειτα, όπως με τη χρησιμοποίηση των εντροπία-βασισμένων στον τεχνικών, όπως η περικοπή Rosenfeld, ή με τη χρησιμοποίηση των τεχνικών περικοπής Stolcke ή αρίθμηση-διακοπών. Σε μια ιδιαίτερη ενσωμάτωση, ένα γλωσσικό πρότυπο λέξης πρώτα predictively συγκεντρώνεται από μια τεχνική που περιγράφεται ως π (Z.vertline.xy).times.P (z.vertline.xyZ), όπου μια πεζή επιστολή αναφέρεται σε μια λέξη, και μια επιστολή ανώτερος-συστάδων αναφέρεται σε μια συστάδα στην οποία η λέξη κατοικεί.