Proteine falten im Akkord

Neuronale Netzwerke prognostizieren Proteinstrukturen hochgenau

13.08.2021 | von Redaktion Pflanzenforschung.de

Darstellung der Raumstruktur des Proteins Chaperonin. (Bildquelle: © Thomas Splettstoesser / wikimedia.org; CC-BY-SA-3.0)

Darstellung der Raumstruktur des Proteins Chaperonin. (Bildquelle: © Thomas Splettstoesser / wikimedia.org; CC-BY-SA-3.0)

Es ist eine Revolution in der Biochemie: Zwei neue Algorithmen können innerhalb weniger Stunden Proteinstrukturen aus der Aminosäurensequenz errechnen. Bisher waren dazu wochenlange und aufwändige Experimente nötig. Das wird auch die Pflanzenforschung beschleunigen.

Wieder einmal hat eine KI-Technologie ein ganzes Forschungsfeld verändert: Wollten Biochemiker:innen noch vor wenigen Jahren die Raumstruktur eines Proteins aufklären, mussten sie eine Reihe komplexer Experimente wie die Röntgenkristallografie oder die Kryoelektronenmikroskopie durchführen. Zudem ist nicht sicher, ob die gefundene Struktur auch die ist, die das Protein in vivo im Organismus einnimmt. Seit kurzem können leistungsfähige Computer eine Proteinstruktur mit sehr hoher Sicherheit durch bloße Berechnung vorhersagen. Bewiesen hat das beispielsweise die Alphabet-Tochter DeepMind Ende 2020 mit dem Sieg in einem entsprechenden Wettbewerb. Seit dem 15. Juli 2021 steht die dazu genutzte Software – AlphaFold 2 – allen Interessierten quelloffen zur Verfügung. Am gleichen Tag hat ein weiteres Forschungsteam mit einer ähnlich guten Open-Source-Software – RoseTTaFold – nachgezogen.

Von der Primärstruktur zur Raumstruktur

Fachleute unterscheiden bei Proteinen vier Strukturebenen: Die Primärstruktur beschreibt, welche Aminosäuren in welcher Reihenfolge das Protein bilden. Daraus lassen sich enorm viele räumliche „Verknäulungen“ dieser Aminosäureketten vorstellen. Die Sekundärstruktur berücksichtigt daher bestimmte typische Muster dieser Faltung, die vor allem durch Wasserstoffbrückenbindungen des Peptidrückgrats erzeugt werden. Doch auch unter Berücksichtigung dieser Effekte bleiben eine Reihe möglicher Faltungsmuster bestehen. Die Tertiärstruktur schließlich resultiert daraus, wie sich die Sekundärstrukturelemente infolge chemischer und physikalischer Wechselwirkungen zueinander verhalten. Erst die Tertiärstruktur – und manchmal sogar die Quartärstruktur – entscheidet über Struktur und Funktion eines Proteins in der Zelle. Letztere berücksichtigt, wie sich mehrere Untereinheiten eines Proteins bzw. Proteinkomplexes aneinanderlagern.

70 von 100 Strukturen präzise errechnet

#####1#####
Die Struktur von Myoglobin, dargestellt mit seinem Sekundärstrukturmustern. (Bildquelle: © Public Domain)

Die Struktur von Myoglobin, dargestellt mit seinem Sekundärstrukturmustern. (Bildquelle: © Public Domain)

Im CASP14-Wettbewerb war es mit AlphaFold 2 nun gelungen, für 70 von 100 Proteinsequenzen die Struktur ebenso exakt vorherzusagen, wie dies mit experimentellen Methoden möglich ist. Die Strukturen des Proteinrückgrats wurden dabei mit einer Präzision von durchschnittlich 0,96 Å getroffen – der Zweitplatzierte im Wettbewerb lag bei 2,8 Å. Zum Vergleich: Der Durchmesser eines Kohlenstoffatoms beträgt 1,4 Å. Darüber hinaus gibt die Software für jedes Element des Proteins an, wie verlässlich die Vorhersage ist. Noch drei Jahre zuvor schien solch eine Leistung absehbar außer Reichweite des Möglichen.

DeepMind hat inzwischen 350.000 Proteinstrukturen neu vorhergesagt. In den kommenden Monaten will das Unternehmen mehr als 100 Millionen weiterer Proteinstrukturen errechnen. Vor AlphaFold 2 war von den heute rund 180 Millionen bekannten Proteinsequenzen nur für rund 170.000 die Struktur aufgeklärt. Anfangs schwieg sich der KI-Spezialist dazu aus, wie seine Software funktioniert. Mit der Veröffentlichung des Quellcodes hat DeepMind aber auch im Fachjournal „Nature“ einige Prinzipien erklärt. Zentrale Rollen spielen dabei ein als „Evoformer“ bezeichnetes Modell der Netzwerkarchitektur des Algorithmus und neue Trainingsmethoden.

Der Evoformer arbeitet sowohl mit sogenannten aufmerksamkeitsbasierten und nicht-aufmerksamkeitsbasierten Komponenten. Außerdem nutzt er gleichzeitig paarweise Abgleiche als auch Mehrsequenzabgleiche. Anschließend optimiert ein Strukturmodul die 3-D-Struktur. Dazu zerlegt es die atomare Struktur der Aminosäurekette in Fragmente und verarbeitet diese parallel bei ständigem Informationsaustausch. Dabei entsteht früh eine Strukturhypothese, die im Verlauf iterativ verfeinert wird.

Alternative aus der freien Forschung

Angespornt vom Erfolg der ersten Verison von AlphaFold und frustriert davon, dass diese zunächst eine Blackblox blieb, hat sich außerhalb der Wirtschaft ein Team von Wissenschaftlerinnen und Wissenschaftlern daran gemacht, nach dem Vorbild von AlphaFold eine eigene KI zu entwickeln: „RoseTTaFold“. Am 15. Juli 2021 stellte auch dieses Team sein Programm quelloffen im Fachjournal „Science“ vor. Die Leistungen des Algorithmus übertreffen ebenfalls deutlich die bisherigen Methoden und reichen fast an AlphaFold 2 heran. Viele Fachleute hoffen nun, dass die Community die Quellcodes beider Programme nutzen wird, um die Prognose von Proteinstrukturen noch weiter zu optimieren.

Der Antrieb, diese Softwaretools zu entwickeln, stammt zweifellos aus der pharmazeutischen Wirkstoffforschung und der Medizin. So war AlphaFold maßgeblich daran beteiligt, die Strukturen wichtiger Proteine des Covid-19-Erregers SARS-CoV-2 vorherzusagen. Doch auch die Pflanzenforschung interessiert sich dafür, wie Proteine innerhalb der Zelle miteinander interagieren und wie pflanzliche Proteine auf jene von nützlichen wie pathogenen Mikroorganismen reagieren. Die Strukturen dieser Proteine zu kennen, erleichtert es, viele dieser Fragen zu beantworten. Daher ist davon auszugehen, dass die nun begonnene Revolution im medizinischen und pharmakologischen Bereich bald auch die Pflanzenforschung erreichen wird.


Quellen:

  • Jumper, J. et al. (2021): Highly accurate protein structure prediction with AlphaFold. In: Nature, (15. Juli 2021), doi: 10.1038/s41586-021-03819-2.
  • Baek, M. et al (2021): Accurate prediction of protein structures and interactions using a three-track neural network. In: Science, (15. Juli 2021), doi: 10.1126/science.abj8754.

Zum Weiterlesen auf Pflanzenforschung.de:

Titelbild: Darstellung der Raumstruktur des Proteins Chaperonin. (Bildquelle: © Thomas Splettstoesser / wikimedia.org; CC-BY-SA-3.0)