This method enables computational analysis and manipulation of DNA and
protein sequence data such as is found in large public databases. The
method allows systematic searches of such data to identify portions of
sequences which code for key intermolecular surfaces or regions of
specific protein targets. In a first example, two amino acid sequences are
input (steps 1, 2) to an iterative procedure (steps 4-6). A frame size is
selected in terms of a number of sequence elements. The procedure then
compares pairs of frames, one from each sequence, to identify
intramolecular and intermolecular regions on the basis of relationships
between amino acids according to a predetermined coding scheme. The
probability of existence of each region within the coding scheme is then
evaluated and those regions for which the probability is greater than a
predetermined threshold are discarded. The procedure outputs the remaining
regions. In a second example, protein structure data is input to an
iterative procedure which evaluates for each frame in the protein
structure a complementary relationship score between the amino acids in
the frame and each amino acid within a predetermined distance from the
frame. The procedure outputs each frame for which the score equals or
exceeds a predetermined threshold score.
Diese Methode ermöglicht Berechnungsanalyse und Handhabung von DNA und Proteinreihenfolge Daten wie wird in den großen allgemeinen Datenbanken gefunden. Die Methode läßt systematische Suchen solcher Daten Teile Reihenfolgen kennzeichnen, die für intermolekulare Schlüsseloberflächen oder Regionen der spezifischen Proteinziele kodieren. In einem ersten Beispiel werden zwei Aminosäurereihenfolgen eingegeben (Schritte 1, 2) zu einem wiederholenden Verfahren (Schritte 4-6). Eine Rahmengröße wird in einer Anzahl von Reihenfolge Elementen ausgedrückt vorgewählt. Das Verfahren vergleicht dann Paare Rahmen, einer von jeder Reihenfolge, um die intramolekularen und intermolekularen Regionen aufgrund von Verhältnissen zwischen Aminosäuren entsprechend einem vorbestimmten Kodierungentwurf zu kennzeichnen. Die Wahrscheinlichkeit des Bestehens jeder Region innerhalb des Kodierungentwurfs wird dann und jene Regionen, für die die Wahrscheinlichkeit grösser ist, als eine vorbestimmte Schwelle werden weggeworfen ausgewertet. Die Verfahren Ausgänge die restlichen Regionen. In einem zweiten Beispiel werden Proteinstrukturdaten zu einem wiederholenden Verfahren eingegeben, das für jeden Rahmen in der Proteinstruktur eine ergänzende Verhältnis-Kerbe zwischen den Aminosäuren im Rahmen und jeder Aminosäure innerhalb eines vorbestimmten Abstandes vom Rahmen auswertet. Die Verfahren Ausgänge jeder Rahmen, für den die Kerbe einer vorbestimmten Schwelle Kerbe entspricht oder übersteigt.