Polyploide Genome exakter sequenzieren

Neue Methode mit hoher Auflösung und geringer Fehlerrate

06.10.2020 | von Redaktion Pflanzenforschung.de

Das neue Verfahren musste sich mit den realen Sequenzdaten der tetraploiden Kartoffel beweisen. (Bildquelle: © Alexey Hulsov/Pixabay/CC0)

Das neue Verfahren musste sich mit den realen Sequenzdaten der tetraploiden Kartoffel beweisen. (Bildquelle: © Alexey Hulsov/Pixabay/CC0)

Wann immer zwei oder mehr homologe Chromosomen über einen längeren Abschnitt identisch sind, besteht bei der Genomsequenzierung Verwechslungsgefahr: Die sequenzierten DNA-Fragmente könnten dann leicht dem falschen Chromosom zugeordnet werden. Mit „WhatsHap polyphase“ gelingt die Analyse polyploider Genome nun deutlich besser.

Die Entschlüsselung des menschlichen Genoms nahm 13 Jahre in Anspruch und kostete fast fünf Milliarden Euro. Heute sind Genomsequenzierungen eine Sache von Stunden und kosten einen drei- bis vierstelligen Betrag. Unterschiedliche Verfahren sind dabei jedoch unterschiedlich genau. Insbesondere in der Pflanzenforschung sind Genomsequenzierungen herausfordernd, denn anders als beim Menschen liegen dort häufig nicht nur zwei Kopien aller Chromosomen vor, sondern gleich vier oder auch mehr. Diese Kopien sind sich sehr ähnlich, aber nicht identisch.

Herausforderung „Phasing“

Problematisch ist das deswegen, weil es bislang nicht möglich ist, die komplette Sequenz eines Chromosoms am Stück abzulesen. Daher kommt es zu einem Puzzlespiel: Die ForscherInnen zerteilen zunächst die Erbinformationen einer größeren Zahl von Zellen in sequenzierbare Fragmentgrößen – die sogenannten „Reads“. Diese teils überlappenden Abschnitte – Milliarden Sequenzen aus den Basen A, C, G und T – müssen dann richtig zusammengesetzt werden. Dabei müssen zwei Fragen geklärt werden: Zu welchem Chromosom gehört ein Read und zu welcher Chromosomenkopie? Ersteres wird beim „Mapping“ festgestellt. Es folgt das „Phasing“, bei dem der Read einem der homologen Chromosomen zugeordnet werden kann. Je geringer die Sequenzunterschiede zwischen den homologen Chromosomen sind, desto öfter kommt es zu einer Fehlzuordnung.

#####1#####
Für die Sequenzierung des Genoms ist die biochemische Erzeugung von DNA-Abschnitten nur der erste Schritt. Spannend wird es besonders bei polyploiden Genomen beim Zusammensetzen der Fragmente durch Algorithmen.

Für die Sequenzierung des Genoms ist die biochemische Erzeugung von DNA-Abschnitten nur der erste Schritt. Spannend wird es besonders bei polyploiden Genomen beim Zusammensetzen der Fragmente durch Algorithmen.

Bildquelle: © iStock.com/isak55

Für das Mapping hat die Bioinformatik inzwischen sehr gute und effiziente Methoden entwickelt. Das Phasing war bislang jedoch insbesondere bei polyploiden Genomen, also solchen mit mehr als jeweils zwei homologen Chromosomen, recht unzuverlässig. Zwar wurden in den vergangenen Jahren auch für das Phasing eine Reihe von Ansätzen vorgestellt, darunter HapCompass, HapTree, SdhaP und der bisherige Goldstandard H-PoPG. Doch sie alle haben Unzulänglichkeiten.

Bedeutung für Evolutionsforschung und Züchtung

Eine höhere Präzision der Sequenzierungen wäre aus mindestens zwei Gründen wünschenswert: Korrektes Phasing erlaubt es, evolutionäre Veränderungen des Genoms wie vollständige Duplikationen zurückzuverfolgen und die Geschichte polyploider Organismen besser zu verstehen. Und für die Pflanzenzüchtung sind präzise Informationen über die Haplotypen entscheidend, um moderne Züchtungsverfahren und Genom-Editierungen verlässlich anwenden zu können.

Ein Team der Heinrich-Heine-Universität Düsseldorf hat deshalb nun einen neuen Ansatz entwickelt und im Fachjournal „Genome Biology“ vorgestellt, der bisherigen Verfahren in Theorie und Praxis überlegen ist: „WhatsHap polyphase“. Im Fokus der Überlegungen stand der Umgang mit dem „Minimum Error Correction“-Modell (MEC), das den meisten bisherigen Verfahren zugrunde liegt. Darin versuchen die eingesetzten Algorithmen, die Reads so zusammenzusetzen, dass ihre Sequenzen möglichst wenig korrigiert werden müssen, um am Ende die Chromosomensequenzen zu ergeben. Was bei diploiden Genomen gut funktioniert, scheitert jedoch bei polyploiden Genomen dort, wo lokal identische Haplotypen vorliegen. Der MEC-Wert beider möglicher Zusammensetzungen ist identisch, die Zuordnung wird an diesen Stellen zum reinen Glücksspiel.

Ansatz in zwei Stufen

WhatsHap polyphase nutzt hingegen einen zweistufigen Ansatz für das Phasing. In der ersten Stufe bildet der Algorithmus Gruppen aus allen Reads, die wahrscheinlich zu identischen Haplotypen gehören, ordnet diese aber noch keiner Chromosomenkopie zu. Um Rechenkapazitäten zu schonen, wird dazu mittels heuristischer Verfahren die statistische Ähnlichkeit zweier Reads abgeschätzt. Insbesondere Reads, die lokal identisch sind, werden so verlässlich gruppiert.

In der zweiten Stufe wird nun aus den Reads die der Zahl der homologen Chromosomen entsprechende Anzahl Haplotypen zusammengesetzt. Dabei verbleiben lokal identische Haplotypen möglichst lange im selben Cluster, was bei Ansätzen auf Basis des MEC-Modells nicht möglich wäre. Die Länge der Blöcke, die beim Phasing erzeugt werden, ist vom Anwender konfigurierbar. Durch die Verwendung kürzerer Blöcke lässt sich so die Genauigkeit des Phasings noch einmal erhöhen.

#####2#####

WhatsHap polyphase

WhatsHap polyphase ist eine Erweiterung des etablierten Open-Source-Programms WhatsHap. Es unterstützt zur Dateneingabe und Ausgabe die Standardformate BAM und VCF. WhatsHap polyphase kann unter https://github.com/whatshap/whatshap heruntergeladen werden.

Signifikant besser als der Goldstandard

Anhand dreier bekannter humaner Genomsequenzen erzeugten die ForscherInnen Reads eines künstlichen polyploiden Genoms, um ihr neues Modell zu erproben und mit der H-PoPG-Methode zu vergleichen. Nutzte WhatsHap polyphase dieselbe Blocklänge, mit der auch H-PopG arbeitet, dann reduzierten sich die Fehlzuweisungen („switch error rates“) zwischen den homologen Chromosomen um 30 Prozent. Mit den Standardeinstellung von WhatsHap polyphase verringerte sich die Fehlerzahl um den Faktor 3 gegenüber dem bisherigen Goldstandard. Die Hamming-Rate, ein noch wichtigeres Maß für die Sensitivität der Methode, fiel noch deutlicher zugunsten des neuen Verfahrens aus. Allerdings liegt die Berechnungsdauer des WhatsHap polyphase-Verfahrens etwa 50 bis 100 Prozent höher als bei H-PoPG.

Das neue Verfahren musste sich auch mit den realen Sequenzdaten der tetraploiden Kartoffel beweisen. Hier zeigte sich, dass die in der Praxis stärker fehlerbehafteten Reads und das Fehlen von hochwertigen Referenzsequenzen für die Kartoffel auch die WhatsHap polyphase-Methode noch vor Herausforderungen stellt. Dennoch gelang es, 91 Prozent aller Gene korrekt zu phasen, darunter auch viele lange Gene.

Bereit für den Praxiseinsatz

WhatsHap polyphase ist damit der erste Algorithmus zur Sequenzierung polyploider Genome, der lokal identische Haplotypen handhaben kann. Es dürfte auch der erste sein, bei dem die Anwender die Länge der gephasten Blöcke und die Präzision des Phasens gegeneinander abwägen können. Zugleich bleibt die benötigte Rechenleistung und -zeit in einem vertretbaren Rahmen. Die Forscher wollen den Algorithmus weiterentwickeln, um die Fehlerrate noch weiter zu verringern. Auch soll der heuristische Ansatz weiter optimiert werden, um die Rechendauer auch für octaploide Genome überschaubar zu halten. Die neue Methode ist aber bereits für Forschung und Züchtung einsatzbereit, als Erweiterung des bereits etablierten und verbreitet genutzten Open-Source-Programms WhatsHap.


Quelle:
Schrinner, S.D. et al. (2020). Haplotype threading: accurate polyploid phasing from long reads. In: Genome Biology, 21:252, (21. September 2020), doi: 10.1186/s13059-020-02158-1.

Zum Weiterlesen:

Titelbild: Das neue Verfahren musste sich mit den realen Sequenzdaten der tetraploiden Kartoffel beweisen. (Bildquelle: © Alexey Hulsov/Pixabay/CC0)