Dateneffizientes Maschinelles Lernen von Biomolekülen

Beispielsystem mit korrekten Vorhersagen in grün und falschen Vorhersagen in gelb, Hauptstrang in türkis und Basen in violett.

Wissenschaftler:innen vom KIT und FZJ aus dem Helmholtz-Forschungsbereich Information sowie von Helmholtz-AI veröffentlichen in Kooperation mit dem DLR eine Studie in Communications Biology, die vorschlägt, wie moderne und klassische Methoden des tiefen maschinellen Lernens dateneffizient kombiniert werden können. (Quelle: Steinbuch Centre for Computing – News)

Leben wird auf der zellulären Ebene von verschiedenen Biomolekülen bestimmt. Sie stellen die Maschinerie von lebenden Organismen dar und spielen eine entscheidende Rolle für das Funktionieren jeder Zelle. Um ihre Funktion und die damit zusammenhängende Struktur zu studieren wird zunehmend auch maschinelles Lernen verwendet. Mitarbeiter der Forschungsgruppe Multiscale Biomolecular Simulation und des Helmholtz-AI-Teams haben in Kooperation mit dem Forschungszentrum Jülich und dem Deutschen Zentrum für Luft- und Raumfahrt (DLR) nun eine Methode vorgeschlagen, wie moderne und klassische Methoden des tiefen maschinellen Lernens kombiniert werden können um auch in datenarmen Szenarien Modelle bauen zu können.

Die Forschenden verwenden einen Deep-Learning-Ansatz, um räumliche Nachbarschaften zwischen RNA-Bausteinen (sog. Nukleotide) vorherzusagen. Ähnlich, wie in einem LEGO-Modell, müssen sich auch hier die Bausteine in der Umgebung anpassen, wenn an einer Stelle einzelne Legosteine ausgetauscht werden, damit das gesamte Bauwerk noch zusammenpasst. Das in der Studie vorgeschlagene BARNACLE-Modell nutzt diese Idee für RNA: Nukleotide, die in RNA räumlich nahe beieinander liegen, mutieren während der Evolution auch mit größerer Wahrscheinlichkeit gemeinsam. Und genau nach diesen entstehenden Mutationsmustern sucht das Modell. Um das Modell trainieren zu können, wird auf eine Kombination aus selbstüberwachtem Vortraining auf vielen Sequenzdaten und einer effizienten Nutzung der wenigen Strukturdaten zurückgegriffen. BARNACLE zeigte mit diesem Ansatz eine signifikante Verbesserung gegenüber etablierten klassischen statistischen Ansätzen aber auch anderen neuronalen Netzen. Es zeigt sich auch, dass die Methode auf verwandte Aufgaben mit ähnlichen Datenbeschränkungen übertragbar ist.

Die Ergebnisse dieser Studie wurden im Paper „RNA Contact Prediction by Data Efficient Deep Learning“ in der Zeitschrift Communications Biology veröffentlicht.

KIT/A. Grindler, 16.10.2023

Die Original-Pressemitteilung finden Sie unter: 

Dateneffizientes Maschinelles Lernen von Biomolekülen

Die Originalpublikation finden Sie unter (Open Access): 

Oskar Taubert, Fabrice von der Lehr, Alina Bazarova, Christian Faber, Philipp Knechtges, Marie Weiel, Charlotte Debus, Daniel Coquelin, Achim Basermann, Achim Streit, Stefan Kesselheim, Markus Götz & Alexander Schug, RNA contact prediction by data efficient deep learning. Communications Biology. 2023, 6:913. DOI: 10.5445/IR/1000162205

Verortung im Helmholtz-Forschungsbereich Information:

Helmholtz-Forschungsbereich Information, Programm 1: Engineering Digital Futures, Topic 1: Enabling Computational- & Data-intensive Science and Engineering

Kontakt:

Dr. Markus Götz
Abteilung Data Analytics, Access and Applications (D3A)
Steinbuch Centre for Computing (SCC)
Karlsruher Institut für Technologie (KIT)
Tel.: +49 721 608-29178
E-Mail: markus.goetz@kit.edu

Prof. Dr. Alexander Schug
Institute for Advanced Simulation (IAS)
Jülich Supercomputing Centre (JSC)
Forschungszentrum Jülich
Tel.: +49 2461/61-9095
E-Mail: al.schug@fz-juelich.de

Kontakt für diese Presseinformation:

Achim Grindler
Public Relations, Service Management
Karlsruher Institut für Technologie (KIT)
Tel.: +49 721 608-24506
E-Mail: achim.grindler@kit.edu

Kommentar hinzufügen

Verwandte Artikel