A lattice data structure suitable for storage on a computer-readable medium
is provided which represents a plurality of orthographic forms of a
Japanese lexical entry. The lattice includes a plurality of data fields
each adapted to hold data representing a word element of the entry. Each
data field includes a first subfield containing data representing a
primary form of the corresponding word element and a second field
containing data representing an alternate form of the corresponding word
element. Also provided is a method of normalizing Japanese lexical entries
to produce a normalized form that includes the primary form of each
word-element representation of the lattice and does not include the
alternate forms. Also provided are methods of segmenting text using the
disclosed lattice.
Μια δομή δεδομένων δικτυωτού πλέγματος κατάλληλη για την αποθήκευση σε ένα αναγνώσιμο από τον υπολογιστή μέσο παρέχεται που αντιπροσωπεύει μια πολλαπλότητα των ορθογραφικών μορφών μιας ιαπωνικής λεξικολογικής εισόδου. Το δικτυωτό πλέγμα περιλαμβάνει μια πολλαπλότητα των τομέων στοιχείων κάθε μια που προσαρμόζεται στα στοιχεία λαβής που αντιπροσωπεύουν ένα στοιχείο λέξης της εισόδου. Κάθε τομέας στοιχείων περιλαμβάνει πρώτο subfield που περιέχει τα στοιχεία που αντιπροσωπεύουν μια αρχική μορφή του αντίστοιχου στοιχείου λέξης και ενός δεύτερου τομέα που περιέχουν τα στοιχεία που αντιπροσωπεύουν μια εναλλάσσομαι μορφή του αντίστοιχου στοιχείου λέξης. Επίσης υπό τον όρο ότι είναι μια μέθοδος τις ιαπωνικές λεξικολογικές καταχωρήσεις για να παραγάγει μια ομαλοποιημένη μορφή που περιλαμβάνει την αρχική μορφή κάθε αντιπροσώπευσης λέξη-στοιχείων του δικτυωτού πλέγματος και δεν περιλαμβάνει τις εναλλάσσομαι μορφές. Επίσης υπό τον όρο ότι είναι μέθοδοι το κείμενο που χρησιμοποιεί το αποκαλυπτόμενο δικτυωτό πλέγμα.