Multilingual und Open Source: OpenGPT-X veröffentlicht großes KI-Sprachmodell

Für das Training von Teuken-7B kam unter anderem der Superrechner JUWELS am Jülich Supercomuting Centre (JSC) zum Einsatz. Copyright: Forschungszentrum Jülich / Sascha Kreklau

Das große KI-Sprachmodell des Forschungsprojekts OpenGPT-X steht ab sofort zum Download bereit: »Teuken-7B« umfasst sieben Milliarden Parameter und wurde von Grund auf mit den 24 Amtssprachen der EU trainiert, unter anderem mithilfe von Expertinnen und Experten des Forschungszentrums Jülich sowie des Supercomputers JUWELS. Akteure aus Forschung und Unternehmen können das kommerziell einsetzbare Open-Source-Modell für ihre eigenen Anwendungen der Künstlichen Intelligenz (KI) nutzen. Damit haben die Partner des vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Konsortialprojekts OpenGPT-X unter der Leitung der Fraunhofer-Institute für Intelligente Analyse- und Informationssysteme IAIS und für Integrierte Schaltungen IIS ein großes KI-Sprachmodell als frei verwendbares Open-Source-Modell mit europäischer Perspektive auf den Weg gebracht. (Quelle: Forschungszentrum Jülich – Pressemitteilungen)

Teuken-7B ist aktuell eines der wenigen KI-Sprachmodelle, die von Grund auf multilingual entwickelt wurden. Es enthält ca. 50 Prozent nicht-englische Pretraining-Daten und erweist sich über mehrere Sprachen hinweg in seiner Leistung als stabil und zuverlässig. Dies bietet insbesondere internationalen Unternehmen mit mehrsprachigen Kommunikationsbedarfen sowie Produkt- und Serviceangeboten einen Mehrwert. Die Bereitstellung als Open-Source-Modell erlaubt es Unternehmen und Organisationen, eigene angepasste Modelle in realen Anwendungen zu betreiben. Sensible Daten können im Unternehmen verbleiben.

Das OpenGPT-X-Team widmete sich neben dem Modelltraining auch zahlreichen Forschungsfragen, zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können. Dazu wurde im Projekt ein multilingualer »Tokenizer« entwickelt. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort. Der entwickelte Tokenizer führte zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Tokenizern, wie etwa Llama3 oder Mistral. Dies kommt insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen können damit Effizienzsteigerungen erreicht werden.

In die Modellentwicklung sind wichtige Forschungsergebnisse aus dem OpenGPT-X-Projekt eingeflossen, wie beispielsweise Tools und Technologien, um sehr große Datenmengen aufzubereiten, leistungsfähige europäische HPC-Infrastrukturen zu nutzen und ein effizientes Modelltraining durchzuführen. Trainiert wurde Teuken-7B mithilfe des Supercomputers JUWELS am Forschungszentrum Jülich. Dieser Rechner ist aktuell der schnellste seine Art in Deutschland und verfügt über 3744 A100 Grafikprozessoren von NVIDIA für das Training großer KI-Modelle. Die Expertise aus dem OpenGPT-X-Projekt floss zudem in die Beschaffung des ersten europäischen Exascale-Supercomputers JUPITER ein, der derzeit am Forschungszentrum Jülich aufgebaut wird. Dieser bietet ab dem nächsten Jahr noch eine vielfach höhere Leistung, um aufwändige KI-Modelle in Deutschland und Europa zu entwickeln.

Neben den beiden Fraunhofer-Instituten und dem Forschungszentrum Jülich haben der KI-Bundesverband, die TU Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet. Die in OpenGPT-X entstandene Technologie bietet den Partnern auch zukünftig die Basis für das Training weiterer eigener Modelle.

FZJ/T. Schlößer, 26.11.2024

Die komplette Pressemitteilung finden Sie unter:

Multilingual und Open Source: OpenGPT-X veröffentlicht großes KI-Sprachmodell

Verortung in Helmholtz Information:

Helmholtz Information, Programm 1: Engineering Digital Futures, Topic 1: Enabling Computational- & Data-Intensive Science and Engineering

Kontakt:

Dr. Andreas Herten
Institute for Advanced Simulation (IAS)
Jülich Supercomputing Centre (JSC)
Forschungszentrum Jülich
Tel.: +49 2461/61-1825
E-Mail: a.herten@fz-juelich.de

Dr. Stefan Kesselheim
Institute for Advanced Simulation (IAS)
Jülich Supercomputing Centre (JSC)
Forschungszentrum Jülich
Tel.: +49 2461/61-85927
E-Mail: s.kesselheim@fz-juelich.de

Kontakt für diese Presseinformation:

Tobias Schlößer
Pressereferent
Forschungszentrum Jülich
Tel.: +49 2461 61-4771
E-Mail: t.schloesser@fz-juelich.de

Über Helmholtz Informationen:

Der Forschungsbereich „Helmholtz Information“ ist einer der sechs Forschungsbereiche der Helmholtz-Gemeinschaft und dient als deren digitales Innovationszentrum. Hier verschmelzen fortschrittliche und zukünftige Computerarchitekturen mit Erkenntnissen aus der Materialforschung, Datenwissenschaften und den Lebenswissenschaften. Inspiriert von der Natur, gestützt auf die Hirnforschung und bereichert durch moderne Ansätze der Künstlichen Intelligenz, gestalten Expert:innen vom Forschungszentrum Jülich, Karlsruher Institut für Technologie, Hereon und dem Helmholtz-Zentrum Berlin die digitale Zukunft in Wissenschaft, Wirtschaft und Alltag.

Besuchen Sie auch unsere offizielle Webseite und folgen Sie uns auf unserem LinkedIn-Kanal von Helmholtz Information, um aktuelle Informationen, Veranstaltungshinweise und Einblicke in unsere Forschungsaktivitäten in Helmholtz Information zu erhalten.

Kommentar hinzufügen

Verwandte Artikel