Riesengenom sequenziert

Größtes bisher gelesenes Genom sequenziert, das der Weihrauchkiefer

20.03.2014 | von Redaktion Pflanzenforschung.de

Das Genom der Weihrauchkiefer ist das bisher größte sequenzierte Genom. (Bildquelle: © Ron Billings, Texas A&M Forest Service)

Das Genom der Weihrauchkiefer ist das bisher größte sequenzierte Genom. (Bildquelle: © Ron Billings, Texas A&M Forest Service)

Das Genom der Weihrauchkiefer ist sieben Mal so groß wie das des Menschen. Mit einer neuen Methode ist es Wissenschaftlern gelungen, das bisher größte jemals sequenzierte Genom in guter Qualität zu lesen.

Im Mai letzten Jahres berichtete Pflanzenforschung.de über einen neuen Größenrekord, den Wissenschaftler bei der Sequenzierung des Fichtengenoms (Picea abies) aufstellten. Das Genom der Norwegischen Fichte umfasst 200 Gigabasen (1 Gigabase = 109 Basen) und ist etwa siebenmal so groß wie das des Menschen. Es beinhaltet 28.354 Gene – das sind nur geringfügig mehr Gene als beim Menschen. Trotzdem ist das Fichtengenom etwa hundertmal größer, als das anderer Pflanzen wie beispielsweise das des beliebten pflanzlichen Versuchsmodells, Arabidopsis thaliana, obwohl diese ähnlich viele Gene besitzt (27.407).

#####1#####
Die Weihrauchkiefer ist ein wirtschaftlich wichtiger Baum. In den USA werden beispielsweise nahezu alle Papierprodukte aus ihrem Holz hergestellt. Sie ist offizieller

Die Weihrauchkiefer ist ein wirtschaftlich wichtiger Baum. In den USA werden beispielsweise nahezu alle Papierprodukte aus ihrem Holz hergestellt. Sie ist offizieller "Staatsbaum" des Bundestaates Arkansas.

Bildquelle: © Dr. Steve McKeand, Professor and Director, NC State University Cooperative Tree Improvement Program

Trotz Größe qualitativ hochwertige Sequenz

Nun haben Wissenschaftler erneut das Genom eines ökonomisch wichtigen Nadelbaums sequenziert. Das Erbgut der Weihrauchkiefer ist mit 232 Gigabasen noch größer als das der Norwegischen Fichte und damit das größte Genom, das bisher jemals sequenziert wurde. Doch nicht allein das ist bemerkenswert. Die Wissenschaftler haben auch erstmals eine neuartige Methode angewandt, mit der sich die Abfolge von Genen und anderen Erbgutabschnitten bei sehr großen und komplexen Genomen bestimmen lassen. Das Ergebnis: „Mit etwa 82 Prozent bekannter Sequenzen ist das Genom der Weihrauchkiefer das vollständigste, das bisher von einem Nadelbaum veröffentlicht wurde“, schreiben die Wissenschaftler.

Puzzle für Hochleistungscomputer

Die größte Herausforderung bei diesem Projekt bestand neben der Größe in der Komplexität des Genoms. Nadelbäume gehören zu den ältesten Pflanzenstämmen überhaupt und haben sich vor etwa 300 Millionen Jahren aus Ur-Samenpflanzen entwickelt. Das Genom der Weihrauchkiefer ist so groß, weil es, wie viele andere Pflanzen mit großen Genomen, voller invasiver DNA-Elemente steckt, die sich selbst an zahlreiche Stellen des Erbguts kopiert haben. Mehr als die Hälfte des Erbguts der Weihrauchkiefer sind Retrotransposons, dazu kommen zahlreiche repetitive Elemente und Gendopplungen, die das Genom auf diese beträchtliche Größe haben anschwellen lassen. Eine Genomduplikation, wie sie bei vielen anderen Kulturpflanzen mit einem großen Genom vorkommt, scheint bei der Weihrauchkiefer kein Grund für das Riesengenom zu sein.

„Das Genom der Weihrauchkiefer ist riesig. Aber die Schwierigkeit besteht nicht nur darin, alle Erbgutabschnitte korrekt auszulesen. Das Hauptproblem ist, die Sequenzdaten wieder richtig zusammenzufügen“, erklärt Projektleiter Prof. David Neale. Die zahlreichen Transposons beinhalten viele repetitive Basenabfolgen. Diese erschweren das Zusammensetzen der vielen kleinen Reads, die von den Sequenziergeräten erzeugt werden, zu einer Konsensussequenz. Vor allem beim Einsatz der neuen Next-Generation-Sequencing-Technologien (NGS), die nur kurze Leselängen erzeugen können, entstehen zum Teil beträchtliche Lücken in der Basenabfolge des Genoms, weil die zahlreichen sich wiederholenden Abschnitte mit den etablierten bioinformatischen Methoden nicht richtig aneinander gefügt werden können. Bei der Weihrauchkiefer waren das 16 Milliarden einzelne Erbgut-Fragmente, die nach dem Auslesen wieder in der richtigen Reihenfolge zusammengesetzt werden mussten. „Das entspricht etwa 1.000 identischen Büchern, die geshredderten wurden und aus denen man die ursprüngliche Geschichte wieder herauslesen möchte“, verdeutlicht der Wissenschaftler. Eine solche Puzzle-Arbeit können nur Hochleistungscomputer vollbringen.

#####2#####
Der

Der "Eisenhower-Tree", die berühmteste Weihrauchkiefer Amerikas, wurde nach dem US-Präsidenten Eisenhower benannt, der seine Golfbälle häufig in den Baum schlug. Bis vor kurzem stand sie noch auf einem Golfplatz in Georgia

Bildquelle: © Shannon / wikimedia.org / CC BY-SA 2.0

Zuerst Datenmüll beseitigen, dann puzzeln

„Wir konnten zwar das menschliche Genom zusammensetzen, stießen dabei aber bereits an unsere Grenzen. Ein siebenfach größeres Genom war einfach zu groß“, so Prof. Steven Salzberg, Biostatistiker im Projekt. Um dieses Problem zu lösen, wandten die Wissenschaftler eine neue Methode an, mit der sie die gigantische Menge an Sequenzdaten derart vorsortierten, dass sie in den Arbeitsspeicher eines einzigen Hochleistungscomputers passten. Dabei werden sich überlappende Sequenzfragmente in größeren Blöcken zusammengefasst und alle redundanten Sequenzinformationen gelöscht. Das reduziert die Datenmenge um das 100-Fache. Mit diesem Trick konnten die Wissenschaftler eine Sequenz mit weniger Lücken erstellen, als es bei anderen Nadelbäumen bisher möglich war. Das macht das die Genomsequenz der Weihrauchkiefer zu einem qualitativ hochwertigen Referenzgenom, das die Sequenzierung weiterer großer Nadelbaum-Genome wesentlich erleichtern wird.

Die Weihrauchkiefer ist ein wirtschaftlich wichtiger Baum. In den USA werden beispielsweise nahezu alle Papierprodukte aus ihrem Holz hergestellt. Auch bei der Erzeugung von Biokraftstoffen spielt der Nadelbaum eine wachsende Rolle. Die Genomsequenz wird Züchtern und Wissenschaftlern helfen, optimierte Arten zu züchten und gleichzeitig die Entwicklung und Diversität des Pflanzenreichs besser zu verstehen. Bereits während der Projektlaufzeit folgten die Wissenschaftler einem mehr und mehr etablierten Prinzip in der globalen Forschergemeinschaft. Die Wissenschaftler haben ihre Daten von Anfang an auch anderen Forschern frei zur Verfügung gestellt, sodass die gesamte Forschergemeinde von Beginn an von ihrem Projekt profitieren konnte.


Quellen:

  • Zimin, A. et al. (2014): Sequencing and assembling the 22-Gb loblolly pine genome. In: Genetics, 196:875-890, (1. März 2014), doi: 10.1534/genetics.113.159715.
  • Wegrzyn, J.L. et al. (2014): Unique Features of the Loblolly Pine (Pinus taeda L.) Megagenome Revealed Through Sequence Annotation. In: Genetics, 196: 891-909, (1. März 2014), doi: 10.1534/genetics.113.159996.
  • Neale, D.B. et al. (2014): Decoding the massive genome of loblolly pine using haploid DNA and novel assembly strategies. In: Genome Biology 2014, 15:R59, (20. März 2014), doi:10.1186/gb-2014-15-3-r59.

Zum Weiterlesen auf Pflanzenforschung.de:

Titelbild: Das Genom der Weihrauchkiefer ist das bisher größte sequenzierte Genom. (Bildquelle:© Ron Billings, Texas A&M Forest Service)