Herausforderungen bei der Genomsequenzierung von Pflanzen
Zehn Jahre nach der vollständigen Sequenzierung des Arabidopsisgenoms liegt nur ein einziges weiteres Pflanzengenom vollständig sequenziert vor. Wissenschaftler müssen sich mit lückenhaften und ungenauen Genomsequenzen zufrieden geben. Pflanzenforschung.de suchte nach Gründen.
Im Jahr 2000 wurde mit der Genomsequenz der Modellpflanze Arabidopsis thaliana das erste vollständig bekannte Pflanzengenom veröffentlicht. Um das Jahr 2005 kamen neue Sequenziertechnologien auf, die Wissenschaftlern das Erstellen weiterer pflanzlicher Genomsequenzen erleichterten. Anfang Oktober 2010 waren 25 Genomsequenzen für 19 Pflanzenarten öffentlich verfügbar. Von den 19 verfügbaren Pflanzengenomen stammten 13 von Nutzpflanzen. 15 Projekte waren noch im Gange und die Daten noch nicht öffentlich zugänglich. Doch bis heute sind Reis und Arabidopsis die einzigen Pflanzenarten, von denen ein vollständig sequenziertes Genom existiert. Woran liegt das?
Zentraler Fokus fehlt
Bei der Sequenzierung von Tiergenomen liegt der Fokus auf der Hand: Letztendlich sollen das menschliche Genom und sein dazugehöriger Organismus verstanden werden. In der Pflanzenwelt existiert solch ein zentraler Fokus nicht. Es gibt nämlich ca. 25 verschiedene Pflanzenarten, die für die Welternährung von Bedeutung sind. Dazu gewinnen sieben Pflanzenarten im Bereich der Biokraftstoff- und Biomaterialproduktion zunehmend an Bedeutung. Mit der Sequenzierung pflanzlicher Genome verfolgen Wissenschaftler sehr unterschiedliche Ziele. Die Genomsequenz dient beispielsweise:
- der Modellbildung in der (Pflanzen)-Biologie,
- dem besseren Verständnis von Pflanzen mit Relevanz für die menschliche Ernährung, als Futterpflanze oder zur Energiegewinnung
- dem besseren Verständnis der Evolution z.B. durch eine vergleichende Genomforschung oder
- der gezielten Anwendung in der Nutzpflanzengenetik zur effizienteren Züchtung von Kulturpflanzen.
Die technischen und finanziellen Möglichkeiten und Ziele haben die Auswahl der Genome, die Sequenzierungsstrategien und den Grad der Vollendung der Sequenzierung stark beeinflusst.
Die ersten sequenzierten Pflanzengenome, die von Arabidopsis thaliana und Oryza sativa (Reis), wurden mit Methoden erstellt, die in den späten 90er Jahren dem aktuellen Stand der Technik entsprachen: Wissenschaftler zerstückelten ein Genom und klonierten dessen Fragmente in künstliche bakterielle Chromosomen (engl.: bacterial artificial chromosome, BAC). Mit der Sanger-Methode ermittelten sie den genetischen Code dieser Klone und erstellten dann über physikalische Karten die Gesamtsequenz des betreffenden Genoms. Durch direktes Sequenzieren ohne vorherige Klonierung in BACs gelang es den Wissenschaftlern Stück für Stück bestehende Lücken zu schließen und Fehler oder Unklarheiten in der Basenabfolge zu beseitigen. Diese Methode ist gründlich, liefert qualitativ hochwertige Sequenzen, benötigt aber viel Zeit. An der Sequenzierung des Arabidopsisgenoms arbeiteten international hunderte Menschen über mehrere Jahre mit einem geschätzten Kostenaufwand von etwa 70 Millionen US-Dollar.
Schnell aber problematisch für komplexe Genome
In den letzten 10 Jahren reduzierten sich die DNA-Sequenzierungskosten um das Zehntausendfache. Die Basenabfolge zahlreicher Genome kann heute in relativ kurzer Zeit mit überschaubaren Kosten mit dem sog. „Whole-genome-shotgun“-Verfahren (WGS, dt. „Schrotschussverfahren“) ermittelt werden. Bei diesem Verfahren wird die gesamte Genomsequenz mehrfach kopiert und in 300 bis 1.000 Basenpaar lange, zufällige Fragmente zerstückelt, die anschließend sequenziert werden. Dies geschieht heutzutage hauptsächlich mit den sog. Hochdurchsatz-Next-Generation-Sequenzierungsgeräten (engl.: NGS). Die einzelnen Genomabschnitte, die sog. Reads, werden mit bioinformatischen Methoden auf Überlappungen untersucht und automatisiert zu einer Konsensussequenz mit möglichst wenigen Lücken zusammengesetzt. Verglichen mit der BAC-Strategie spart das WGS-Verfahren viel Zeit, denn Wissenschaftler können auf zeitaufwendige Klonierungen verzichten und brauchen keine physikalischen Karten der Chromosomen zu erstellen.
Nachdem die WGS-Methode erfolgreich für verschiedene Tiergenome angewendet wurde, etablierte sie sich auch für die Untersuchung von Pflanzengenomen. Diese stellen jedoch für die Forscher aufgrund ihrer Größe und Komplexität eine besondere Herausforderung dar, die mit der WGS-Methode alleine nicht zu meistern ist.
Herausforderungen bei der Sequenzierung von Pflanzengenomen
Genomgröße
Die durchschnittliche Größe eines Pflanzengenoms beträgt ungefähr sechs Gigabasen (Gb), die einer Nutzpflanze etwa 777 Megabasen (Mb). Zum Vergleich: Das Genom von Arabidopsis ist 125 Mb groß, das von Reis 389 Mb. Bevor die Entwürfe der bisher größten bearbeiteten Genome von Mais (Zea mays) mit 2,5 Gb und Soja (Glycine max) mit 1,1 Gb im Jahr 2010 erstellt wurden, waren nur Pflanzen mit relativ kleinen Genomen zur Sequenzierung ausgewählt worden (durchschnittliche Größe von etwa 466 Mb). Bei der Auswahl der zu entschlüsselnden Genome wurde bisher viel Wert auf Kosteneffektivität gelegt, die nur bei der Sequenzierung kleiner Genome zufrieden stellend ausfällt. So fielen zum Leidwesen vieler Pflanzenzüchter zahlreiche Pflanzengenome durchs Raster.
Repetitive Sequenzen und Transposons
Zwei Faktoren erschweren das Sequenzieren der großen Pflanzengenome zusätzlich: Zum einen die große Anzahl an sich wiederholenden, sog. repetitiven Basenabfolgen, zum anderen die sog. springenden DNA-Abschnitte (Transposons). Das Arabidopsisgenom enthält etwa 10 Prozent repetitive Sequenzen. Bei Weizen (Triticum aestivum) sind es sogar 80 Prozent. Auch Transposons beinhalten viele repetitive Basenabfolgen. Diese erschweren das Zusammensetzen der vielen kleinen Reads, die von den Sequenziergeräten erzeugt werden, zu einer Konsensussequenz. Vor allem beim Einsatz der neuen Next-Generation-Sequencing-Technologien (NGS), die nur kurze Leselängen erzeugen können, entstehen zum Teil beträchtliche Lücken in der Basenabfolge des Genoms, weil die zahlreichen sich wiederholenden Abschnitte mit bioinformatischen Methoden nicht richtig aneinander gefügt werden können.
Die zwei größten bisher sequenzierten Pflanzengenome Mais und Soja besitzen auch die meisten repetitiven Sequenzen (> 60 Prozent). Aufgrund der Schwierigkeiten und Kosten, die mit dem Zusammensetzen der zahlreichen sich wiederholenden und transposalen Sequenzen einhergehen, sind bisher beide Genomsequenzen unvollständig.
Polyploidie
Im Gegensatz zum menschlichen Organismus besitzen viele Pflanzen mehr als zwei Chromosomensätze. Dieses Phänomen wird als Polyploidie bezeichnet. Sie schafft weitere Schwierigkeiten bei der Sequenzierung und anschließenden Zusammensetzung der Genome mit bioinformatischen Computerprogrammen. Die Redundanz durch das Vorhandensein von zwei oder mehr Gensets innerhalb eines Kerns kann die Genauigkeit des zusammengesetzten Genabschnitts beeinflussen. Außerdem müssen Bioinformatiker homologe Basenabfolgen voneinander unterscheiden, was die Nutzbarkeit der Sequenz beeinträchtigen kann. So kommt es, dass bis heute keine polyploide Pflanze gänzlich in ihrem genetischen Code bekannt ist.
Heterozygotie
Eine andere Form der Redundanz, die Heterozygotie, ist unter den Blütenpflanzen weit verbreitet. Außerdem sind viele ökonomisch wichtige Pflanzen herterozygot. Um die Sequenzierung dieser Pflanzen zu vereinfachen, haben Wissenschaftler zunächst die homozygoten, aber ökonomisch weniger wichtigen Varianten der betreffenden Pflanzen herangezogen. Die Strategie sah folgendermaßen aus: In der von der homozygoten Pflanze zusammengesetzten Genomsequenz sollten die Abweichungen der heterozygoten Pflanze ergänzt werden. Bisher wurde das Verfahren bei zwei Pflanzen angewendet: Einer Weintraubenart (Pinor noir, dem Spätburgunder) und einer Pappelart (Populus trichocarpa). Die Unvollständigkeit der beiden Genomsequenzen macht deutlich, wie schwierig es ist, eine qualitativ hochwertige Sequenz einer solchen Pflanze mit den heutigen Sequenzierungsmethoden zu erzeugen.
Welche Sequenzqualität wird für verschiedene Anwendungen benötigt?
In Anbetracht des hohen zeitlichen und finanziellen Aufwandes, qualitativ hochwertige Sequenzen zu erzeugen, drängt sich die Frage nach der Notwendigkeit und dem Anwendernutzen auf.
Genomsequenzen mit geringer Abdeckung bzw. Sequenzentwürfe reichen aus, um Gene und sich wiederholende Basenabfolgen eines Genoms zu katalogisieren. Sie gewähren außerdem Einblicke in evolutionäre Prozesse. Das Hauptproblem dieser ungenauen Sequenzen liegt in der Schwierigkeit, die Informationen aus den repetitiven Basenabfolgen herauszulesen. Außerdem können Gene nur schwer von Pseudogenen unterschieden werden.
Wissenschaftler fanden beim Vergleich von Mausgenomsequenzen, die entweder mit dem WGS-Verfahren oder mit der BAC-Methode erstellt worden waren, deutliche Mängel bei den WGS-Basenabfolgen. Bei diesen Sequenzen gingen wichtige Informationen abstammungsrelevanter Genfamilien verloren, da etwa 5 % der Genomsequenz falsch zusammengefügt wurde oder gar nicht vorhanden war. Zahlreiche Forscher merken jedoch an, dass gerade spezies-spezifische Informationen in der biologischen Forschung von besonderer Bedeutung sind. Sie halten qualitativ hochwertige Genomsequenzen für essentiell für die funktionelle Genomanalyse.
Sinnvoller Kompromiss
Bei der Erstellung des Reisgenoms wurde die zeitaufwändigere, aber gründlichere BAC-Methode mit der schnelleren und kostengünstigeren, aber ungenaueren WGS-Methode kombiniert, um alle Lücken, die das WGS-Verfahren hinterlassen hatte, zu schließen. Auch um das hexaploide Weizengenom zu sequenzieren, verfolgt das zuständige Konsortium eine solche Kombinations-Strategie. Von jedem Chromosom erstellen die Wissenschaftler zunächst eine physikalische BAC-Klon-Karte. Erst dann ermitteln sie die Basenabfolge jedes der 21 Chromosomen einzeln. Zwar kostet dieses Verfahren viel Zeit und Geld, es erleichtert aber die Positionierung der kleinen Sequenzabschnitte im Gesamtgenom und liefert letztendlich eine qualitativ hochwertige Genomsequenz. Die erste physikalische Karte des größten Weizenchromosoms (1 Gb) wurde im Jahr 2008 veröffentlicht, dessen Sequenzierung mit NGS-Technologien läuft im Moment.
Mit dem Aufkommen der sog. Sequenziertechnologien der dritten Generation, die lange Lesestücke bei geringem Kosten- und Zeitaufwand erstellen können, wird das Problem der qualitativ minderwertigen Genomsequenzen für große und komplexe Genome wahrscheinlich bald der Vergangenheit angehören. Bis dahin müssen Wissenschaftler ihre Geldgeber davon überzeugen, dass es sich lohnt in qualitativ hochwertige Sequenzen zu investieren.
Quellen:
- C. Feuillet et al. “Crop genome sequencing: lessons and rationales“; Trends in Plant Science, February 2011, Vol. 16, No. 2.
Anregungen zum Weiterlesen:
- Interview mit Dr. Catherin Feuillet (INRA, Frankreich), einer der Autorinnen der Publikation (Link)
Eine kurze Einführung in die Sequenzierungsmethoden:
- DNA-Sequenzierungsmethoden - Motoren der Genomforschung
- Klassische Sequenzierungsmethoden im Überblick
- Ultra-Hochdurchsatz-Sequenziermethoden im Überblick
- Interview zur maßgeschneiderten DNA-Sequenzierung mit Dr. Kerstin Stangier (GATC Biotech AG)
Ausgewählte aktuelle Beiträge zur Nutzung der Pflanzensequenzierung:
- Erster Schritt zur Erbgut-Entschlüsselung von Getreide
- 517 Reissorten in Stücke zerlegt
- An Arabidopsis führt kein Weg vorbei
- Von der Wildpflanze zur Kulturpflanze
Pflanzensteckbriefe zu einigen sequenzierten bzw. partiell entschlüsselten Genomen