Theoretical Analysis of
Protein-Protein
Interactions
Proseminar SS 2004
Virtual Screening:
Predicting Pairs from
Sequence
Übersicht
 Einleitung
 1.Modell: Vorhersage von Protein-Interfaces aus
Sequenzprofilen und Residue Neighbor Listen durch
neuronale Netzwerke
 2.Modell: Vorhersage von Protein-Interfaces aus der
Aminosäuresequenz mithilfe einer Support Vector
Machine
 Zusammenfassung
SS 2004
Anna Hobler
3/29
Einleitung
 Protein-Protein-Interaktionen spielen eine entscheidende
Rolle bei biologischen Prozessen
 Ziel: Verständnis der physiologischen Funktion eines
Proteins
→ Identifikation von Interfaces
SS 2004
Anna Hobler
4/29
Einleitung
Spezifisches Problem:
Gegeben die Struktur eines Proteins und die Tatsache,
dass es einen Komplex mit einem anderen, unbekannten
Protein bildet.
Sage die Residuen des ersten Proteins voraus, die im
Interface mit dem zweiten Protein liegen.
SS 2004
Anna Hobler
5/29
Merkmale von Interfaces
 unterscheiden sich in Homo- und Heteromeren,
sowie in permanent und transient
interagierenden Proteinen
 Unterschiedliche Interface-Arten haben
unterschiedliche Merkmale
 große Anzahl von hydrophoben Residuen im
Vergleich zur gesamten Proteinoberfläche
 Protein-Interfaces sind segmentiert
SS 2004
Anna Hobler
6/29
Merkmale von Interface-Residuen
 Segmente fassen oft Residuen zusammen, die in der
3D-Struktur geclustert sind und in der
Aminosäuresequenz aufeinanderfolgen
 andere Aminosäure-Zusammensetzung als der Rest des
Proteins
 nicht-polare Residuen häufiger in Interfaces als
geladene und polare Residuen (Ausnahme: Arginin)
 mutieren weniger häufig als andere Stellen der ProteinOberfläche
SS 2004
Anna Hobler
7/29
Definitionen
Oberflächen-Residue:
relative MASA (ASA im ungebundenen Molekül)
wenigsten 25% der Gesamtfläche
Interface-Residue:
1. Basierend auf der Reduktion der ASA:
ASAMonomer - ASAKomplex <1 Å2
2.
SS 2004
Abstands-basiert:
Residue (oder Atom) in anderem Molekül mit Abstand
<6Å zur Target-Residue
Anna Hobler
8/29
1.Modell: Vorhersage von Protein-Interfaces aus
Sequenzprofilen und Residue Neighbor Listen durch
neuronale Netzwerke
 Ziel: Entwicklung eines genauen Predictors für InterfaceResiduen
 Input: Sequenzprofil und ASA einer Oberflächen-Residue
und das Gleiche für die 19 räumlich am nähesten
Oberflächen-Residuen
 Sammlung von Komplexen: Kettenpaare mit 20
Residuen/Kette, die einen Interface-Kontakt mit der
anderen Kette bilden
SS 2004
Anna Hobler
9/29
Architektur der neuronalen
Netzwerke
2 aufeinanderfolgende neuronale Netzwerke

→ 2. Netzwerk soll Genauigkeit verbessern
 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden
Layer mit 75 Knoten, die zu 2 Output-Knoten führen
 Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine
Interface-Residue ist
(0,1) sonst
 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30
Knoten und 2 Output-Knoten
 Die Werte der 2. Output-Knoten sind entscheidend
SS 2004
Anna Hobler
10/29
Neural Network Predictor
Input-Layer
Hidden Layer
Output-Layer
Quelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343.
Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List.
 Vorherzusagende Residue: L79
 2 nächste räumliche Nachbarn: F78, V80
 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil
(PSI-BLAST) bzw. letzter Knoten enthält relative ASA
 Vergleich der beiden Output-Knoten: Interface-Residue ↔ x1>x2
SS 2004
Anna Hobler
11/29
Performance der Methode
 Training Set: 615 Paare von nicht-homologen komplexbildenden Proteinen
 225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR)
 Test Set: 129 Paare
 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit
wenigstens einem Interface-Kontakt)
 11.004 Vorhersagen von IR
 70% (7732) richtig, d.h. Genauigkeit
 65% der 11.805 Residuen die die 129 Interfaces bilden
SS 2004
Anna Hobler
12/29
 Neighbor Listen und ASA relativ unempfindlich
gegenüber strukturellen Änderungen
→ NN für gebundene und ungebundene Strukturen
etwa gleiche Genauigkeit:
 Suche nach ungebundenen Formen für die 129 Paare
von Proteinketten → 35 solcher Proteine
 als Test Set : Genauigkeit von 69%
SS 2004
Anna Hobler
13/29
2.Modell: Vorhersage von Protein-Interfaces aus der
Aminosäuresequenz mithilfe einer Support Vector Machine
 Ziel: Predictor zur Vorhersage von Interfaces durch
Nutzung einer Support Vector Machine
→ Vorhersage, ob Oberflächen-Residue = InterfaceResidue, basierend auf der Identität der Ziel-Residue
und ihrer 10 Sequenznachbarn
 einzige Strukturinformation: ASA der Residuen zur
Identifizierung von Oberflächen-Residuen des TargetProteins
 Vorhersage korrekt: Residue oder eine ihrer 4 nächsten
Nachbarn haben wenigstens einen Interface-Kontakt
SS 2004
Anna Hobler
14/29
 Input: abgeleitet aus der Identität der Target-Residue und den
Residuen die sie in der Primärsequenz umgeben
→11-Residue-Fenster besteht aus der Residue und ihren 10
Sequenznachbarn (5 auf jeder Seite)
 Output: +1 wenn Target Residue als Interface-Residue
vorhergesagt wurde
-1 sonst
SS 2004
Anna Hobler
15/29
Support Vector Machine
 Residue repräsentiert durch Vektor mit 20 Elementen
(Elemente entsprechen den AS)
→ Jede Target-Residue assoziiert mit 220-elementigen
Vektor
 Wert eines Elementes im Vektor: Häufigkeit, mit der die
entsprechende AS in dieser Position im Alignment
vorkommt
 Learning Algorithmus generiert Klasse mit 220elementigen Vektor als Input und gibt Klassenlabel aus
SS 2004
Anna Hobler
16/29
 SVM wählt eine
Hyperfläche im
euklidischen Raum aus,
die den Trennungsrand
zwischen den beiden
Klassen maximiert
Quelle: http://lectures.molgen.mpg.de/statistik/docs/Kapitel_16.pdf
SS 2004
Anna Hobler
17/29
Maßstäbe für die Beurteilung der
Methode
 TP (true positives) = # vorhergesagte IR, die wirklich
welche sind
 TN (true negatives) = # vorhergesagte NIR, die wirklich
keine sind
 FP (false postitives) = # vorhergesagte IR, die aber NIR
sind
 FN (false negatives) = # vorhergesagte NIR, die aber IR
sind
 N = TP + TN + FP + FN = # aller Vorhersagen
→ IR = TP + FN
NIR = TN + FP
SS 2004
Anna Hobler
18/29
Maßstäbe für die Beurteilung der
Methode
TP
 1 - False Alarm Rate TP  FN
TN
Sensitivit ät - 
 1 - False Alarm Rate 
TN  FP
TP
Spezifität  
TP  FP
TN
Spezifität - 
TN  FN
FN
False Alarm Rate  
FP  TN
FN
False Alarm Rate - 
FN  TP
Sensitivit ät  
SS 2004
Anna Hobler
19/29
Erklärungen
 Sensitivität: wie viel Prozent aller IR wurden richtig
vorhergesagt
 Spezifität: wie viel Prozent aller vorhergesagten IR
wurden richtig vorhergesagt
 False positive rate: wie viel Prozent aller NIR wurden als
IR vorhergesagt
SS 2004
Anna Hobler
20/29
Genauigkei t 
TP  TN
N
Gesamtwahrscheinlichkeit,
dass eine Vorhersage korrekt ist
TP * TN - FP * FN
r
(TP  FN)(TP  FP)(TN  FP)(TN  FN)
Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen
1 bei positiver Korrelation
-1 bei negativer Korrelation
 Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.)
SS 2004
Anna Hobler
21/29
Performance der Methode
 115 Proteine aus 70 Heterokomplexen (unterteilt in 6
Kategorien)
 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR)
 115 jack-knife Experimente
 Training Set: je 1250 zufällig gewählte IR und NIR aus
114 der 115 Proteine
 SVM klassifizierte Oberflächen-Residuen in IR und NIR:




SS 2004
Spezifität 71%
Sensitivität von 67%
False Alarm Rate von 35,9%
Korrelationskoeffizient von 0.29
Anna Hobler
22/29
SS 2004
Anna Hobler
23/29
SS 2004
Anna Hobler
24/29
SS 2004
Anna Hobler
25/29
SS 2004
Anna Hobler
26/29
SS 2004
Anna Hobler
27/29
Zusammenfassung
 Direkter Vergleich beider Methoden nicht gut möglich
 Aber beide Methoden relativ gut, NN etwas besser
 sichere Identifizierung Interfaces kann Exerimente
untersützen
 Ergebnisse und „einzigartige“ Kompositionen der
interagierenden Residuen
→ Interfaces allein aus der Sequenz bestimmbar
SS 2004
Anna Hobler
28/29
Quellen
 Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239.
Predicted Protein-Protein Interaction Sites from Local
Sequence Information.
 Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343.
Prediction of Protein Interaction Sites from Sequence
Profile and Residue Neighbor List.
 Yan, C., Honavar, V., and Dobbs, D., (2002) . Predicting
Protein-Protein Interaction Sites from Amino Acid
Sequence.
SS 2004
Anna Hobler
29/29

Anna_Hobler