In order to align DNA sequence data traces, an experimental data trace
representing the positions of a first species of base within a target
polynucleotide and a reference data trace representing the positions of a
second species of base (which may be the same as or different from the
first species) within a reference polynucleotide are obtained by
separating appropriate sequencing fragments generated from the target and
reference polynucleotides on an electrophoresis gel. For each reference
data trace, a plurality of peaks corresponding to fragments having a size
in the range of 40 to 1200 bases are selected. A base number is assigned
to each of the selected peaks in the reference data trace, and a numerical
"peak file" is created with information about the peak number and
migration time (or distance). This peak file is analyzed to determine a
set of polynomial coefficients which will allow substantial linearization
of a plot of peak number versus separation between adjacent peaks and
alignment of the traces with respect to each other. These coefficients are
used to create a corrected time scale identifying where peaks should be
located on a given experimental gel. This corrected time scale is used to
guide the sampling of the experimental data, and for assignment of peaks
within the data.
Afin d'aligner des traces de données d'ordre d'ADN, des données expérimentales tracent représenter les positions de l'les premières espèces de la base dans un polynucleotide de cible et des données de référence tracent représenter les positions de l'les deuxièmes espèces de la base (qui peuvent être les mêmes qu'ou différentes des premières espèces) dans un polynucleotide de référence sont obtenues en séparant les fragments d'ordonnancement appropriés produits de la cible et les polynucleotides de référence sur une électrophorèse gélifient. Pour chaque référence les données tracent, une pluralité de crêtes correspondant aux fragments ayant une taille dans la gamme de 40 à 1200 bases sont choisies. Un numéro de base est assigné à chacune des crêtes choisies dans la trace de données de référence, et "un dossier maximal" numérique est créé avec des informations sur le nombre et le temps de migration (ou la distance) maximal. Ce dossier maximal est analysé pour déterminer un ensemble de coefficients polynômes qui permettront la linéarisation substantielle d'une parcelle de terrain de nombre maximal contre la séparation entre les crêtes et l'alignement adjacents des traces en ce qui concerne l'un l'autre. Ces coefficients sont employés pour créer une échelle de temps corrigée identifiant où des crêtes devraient être situées sur un gel expérimental donné. Cette échelle de temps corrigée est employée pour guider le prélèvement des données expérimentales, et pour l'attribution des crêtes dans les données.