Raps trifft auf Künstliche Intelligenz
Das Projekt „DeepIntegrate“
In der Pflanzenforschung werden enorme Datenmengen gesammelt, die von Computern auch mit Methoden des maschinellen Lernens autonom analysiert werden. Eine Herausforderung ist aber die Kombination unterschiedlicher Datentypen wie beispielsweise Fotos, Wetterdaten und genetische Informationen, um noch bessere Vorhersagemodelle für Forschung und Züchtung zu entwickeln. Wie das gelingen kann, untersuchte das BMBF-Projekt „DeepIntegrate“.
In der Pflanzenforschung kam es wie auch in anderen wissenschaftlichen Disziplinen zu einer wahren Datenexplosion. Immer mehr Informationen von äußeren Pflanzenmerkmalen, „inneren Werten“ wie genetische oder metabolische Eigenschaften der Pflanzen sowie Umweltdaten werden erfasst. Auch wenn solche Daten heutzutage meist schnell und günstig erhoben werden können, ist die genaue Analyse der Abhängigkeit zwischen den erfassten Parametern hochkomplex. Die Analyse großer Datensätze überlässt man daher heute gerne Computern, die dies automatisiert durchführen können.
Parallel gab es viele Fortschritte im Bereich der Bioinformatik, speziell im Bereich der Künstlichen Intelligenz (KI) wie dem Machine Learning, auch maschinelles Lernen genannt. Mit diesen Methoden können versteckte Muster in den Daten erkannt und darauf basierend Vorhersagenmodelle aufgestellt werden.
Das Projekt DeepIntegrate hatte die Aufgabe, diese Modelle für die Züchtung zu erschließen und zu verbessern, indem viele unterschiedliche Datentypen mit „tiefem maschinellen Lernen“ (Deep Learning) zusammengeführt wurden, um Pflanzeneigenschaften vorherzusagen.
Als praktisches Anwendungsfeld wählte das Team Daten aus Feldversuchen mit der Kulturpflanze Raps. „Deep Learning ist ein Teilbereich des Machine Learnings, bei dem neuronale Netzwerke die Analyse großer Datenmengen übernehmen. Das Neue am Deep Learning ist, dass der Computer selbstständig lernen kann und das funktioniert umso besser je mehr Daten man hat“, erklärt Projektkoordinator Professor Marius Kloft von der Uni Kaiserslautern.
DeepIntegrate wurde vom Bundesministerium für Bildung und Forschung (BMBF) im Rahmen der „Förderung von Forschungsvorhaben zur automatisierten Analyse von Daten mittels Maschinellen Lernens“ unterstützt. Das Projekt lief über drei Jahre und wurde Ende 2021 abgeschlossen.
Die Projektpartner und Ziele
Im Projekt DeepIntegrate arbeiteten die Technische Universität Kaiserslautern und das Züchtungsforschungsunternehmen NPZ Innovation GmbH (NPZi) eng zusammen. Oberstes Ziel des Projektes war es, neue Algorithmen des Deep Learnings zu erschaffen, die mit diversen Datentypen wie Bildern, Umweltdaten sowie genetischen und metabolischen Parametern zurechtkommen. Am Ende sollten Vorhersagemodelle entstehen, wie diese Faktoren letztendlich den Phänotyp einer Rapspflanze bestimmen. Und das genauer als klassische computergestützte Methoden.
Denn Deep Learning-Methoden haben einen weiteren Pluspunkt: „Im Vergleich zu anderen Ansätzen können tiefe maschinelle Lernverfahren auch nicht-lineare Zusammenhänge modellieren. Bei uns ist das die Interaktion von Raps-Genotypen mit der Umwelt“, sagt der beteiligte Bioinformatiker Dr. Matthias Enders von der NPZi. „Interessant ist, dass das Projekt die ganze Brandbreite von den mathematischen Grundlagen bis hin zur praktischen Anwendung abdeckt“, ergänzt Enders.
Das Vorgehen
Datenbasis schaffen
Das NPZi-Team stellte die notwendigen experimentellen Daten aus Feldversuchen mit Raps zur Verfügung. Dafür wurden zahlreiche Winterrapssorten über mehrere Jahre hinweg auf insgesamt knapp 125.000 Parzellen in den Zuchtgärten der beiden Hauptstandorte des Schwesterunternehmens Norddeutsche Pflanzenzucht Hans-Georg Lembke KG (NPZ) angebaut. Auch auf ältere Anbaudaten griff das Team zurück, um die Datenbasis zusätzlich zu vergrößern. Darüber hinaus lieferte die NPZi über 2,5 Milliarden genotypische Datenpunkte.
Algorithmen programmieren, trainieren und testen
Die TU KL hat sich derweil an die Programmierung der Algorithmen und dem übergeordneten neuronalen Netzwerk gemacht. Das Netzwerk besteht aus mehreren mathematischen Funktionen, die verschachtelt sind – man spricht dabei auch von der Architektur des Netzwerks.
Als alles vorlag, musste das Netzwerk zunächst mit bekannten phänotypischen Eigenschaften der Rapspflanzen „trainiert“ werden. Damit die künstliche Intelligenz die Bandbreite dieser Eigenschaften kennt, „fütterte“ das Team den Computer mit den phänotypischen Rapsdaten aus den Feldversuchen.
Nachdem es mit bestehenden Zusammenhängen „trainiert“ wurde, konnte es anschließend auf unbekannte Zusammenhänge angewendet werden. Dafür wurde die KI mit den anderen verfügbaren Daten versorgt: Wetterinformationen, unterschiedliche Drohnenbilder (RGB-Bilder und multispektrale Bilddaten) und die genomischen Daten. Alle Parameter sollten nun dazu genutzt werden, um phänotypische Pflanzenmerkmale vorhersagen zu können.
Am praktischen Beispiel erfolgreich angewendet
Die Projektpartner sind mit den Ergebnissen des Projektes sehr zufrieden: „Gegenüber den klassischen Vorhersagemethoden konnten wir mit unseren Algorithmen deutlich bessere Vorhersagen für einzelne Pflanzenmerkmale treffen, insbesondere für Merkmale mit bekannter und hoher Abhängigkeit von Umwelteinflüssen, wie z. B. dem Blühbeginn, der stark von den Temperaturen im Frühjahr abhängt“, fasst Enders zusammen.
Das Besondere: Die aufgesetzte Architektur des Netzwerks kann sogar erfolgreich für die Vorhersage der Merkmale genutzt werden, wenn eine der Datenquellen fehlt. Darüber hinaus können die Algorithmen selbst herausfinden, welche der eingespeisten Daten bei der Vorhersage der Merkmale am wichtigsten sind – eine gewichtete Vorhersage also. „So kann beispielsweise herausgefunden werden, welches Chromosom oder welche Drohnenbilder besonders relevant für die Vorhersage der Pflanzenhöhe ist“, erklärt Doktorand Saurabh Varshneya von der TU KL.
Die neu entwickelten Algorithmen können nun zu einer automatisierten Bewertung der Leistung von Pflanzensorten in der Pflanzenzüchtung genutzt werden und erweitern die Werkzeugpalette der Bioinformatik. Im Projekt ging es zwar zunächst nur um die Rapszüchtung, doch die Ergebnisse haben eine nahezu universelle Anwendbarkeit. Auch andere Branchen können und sollen zukünftig davon profitieren, betonen die Beteiligten.
Publikation aus dem Projekt (Informatikbezug):
- Varshneya, S. et al. (2021): Learning Interpretable Concept Groups in CNNs. In: Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), (August 2021), doi: 10.24963/ijcai.2021/147.
Zum Weiterlesen auf Pflanzenforschung.de:
- Exotische Bioinformatik - Genomanalysen der Ananas enthüllen unterschiedliche Domestikationswege
- Exakte Ertragsprognosen durch KI - Maschinelles Lernen kann sogar neue Züchtungsziele identifizieren
- No more Lollipops - Neue miRNA-Software setzt auf maschinelles Lernen und künstliche Intelligenz
- Rapsgenom entschlüsselt - Eine ungewöhnliche Pflanze mit viel Potential
Titelbild: Raps auf dem Feld. (Bildquelle: © NPZ Innovation GmbH)