Navigation überspringen

ETHs wollen Sprachmodell veröffentlichen

Die ETH Zürich und die EPFL wollen im Spätsommer ein grosses Sprachmodell (LLM) veröffentlichen. Entwickelt und trainiert wurde es auf der öffentlichen Infrastruktur des Supercomputers «Alps» am nationalen Supercomputer-Zentrum CSCS. 

Für ihre Arbeit an einem eigenen KI-Modell nutzen die Forschenden den Supercomputer Alps. | © SNSC
Für ihre Arbeit an einem eigenen KI-Modell nutzen die Forschenden den Supercomputer Alps.

Das Modell wird, laut ETH vollständig offen sein: Quellcode und Gewichte werden öffentlich verfügbar sein, und die Trainingsdaten werden transparent und reproduzierbar sein. Diese Offenheit unterstütze die Verbreitung und Anwendung in Wissenschaft und Bildung sowie im öffentlichen und privaten Bereich. Dieser Ansatz soll sowohl die Innovation als auch das Vertrauen in KI fördern. «Völlig offene Modelle ermöglichen Anwendungen, die ein hohes Mass an Vertrauenswürdigkeit gewährleisten, und sie sind notwendig, um die Forschung zu den Risiken und Chancen der KI voranzutreiben. Transparente Prozesse ermöglichen auch die Einhaltung der Rechtsvorschriften», sagt Imanol Schlag, Forscher am ETH AI Center, der das LLM-Projekt leitet.

Polyglott und multikulturell

Ein charakteristisches Merkmal dieses LLM ist, dass es über 1000 Sprachen beherrscht. Das Basismodell wurde mit einem grossen Textdatensatz von über 1500 Sprachen trainiert – etwa 60 Prozent waren Englisch und 40 Prozent andere Sprachen – hinzukamen Code- und Mathematikdaten. Da Inhalte aus allen Sprachen und Kulturen vertreten sind, punktet das resultierende Modell mit einer hohen globalen Anwendbarkeit.

 

Das Modell soll in zwei Grössen – mit 8 Milliarden und mit 70 Milliarden Parametern – veröffentlicht werden und damit die Bedürfnisse eines breiten Spektrums an Nutzenden erfüllen. Die grössere Version wird zu den leistungsstärksten, vollständig offenen Modellen weltweit gehören. Die Anzahl der Parameter spiegelt dabei die Fähigkeit eines Modells wider, zu lernen und komplexe Antworten zu erzeugen.

 

Das Modell soll eine hohe Zuverlässigkeit erreichen, da es mit mehr als 15 Billionen qualitativ hochwertiger Trainingstoken trainiert wird (das sind Einheiten, die jeweils ein Wort oder einen Wortteil repräsentieren): Dieses Vorgehen ermöglicht ein robustes Sprachverständnis und vielseitige Anwendungsfälle.

Verantwortungsvoller Umgang mit Daten

Bei der Entwicklung des LLM werden laut ETH die schweizerischen Datenschutzgesetze, das schweizerische Urheberrecht und die Transparenzverpflichtungen im Rahmen der KI-Verordnung der EU (EU AI Act) berücksichtigt. In einer aktuellen Studie haben die Projektleitenden nachgewiesen, dass es für die meisten alltäglichen Aufgaben und den allgemeinen Wissenserwerb praktisch keine Leistungseinbussen mit sich bringt, wenn bei der Datengewinnung die sogenannten Opt-outs für Web-Crawling respektiert werden — und damit gewisse Web-Inhalte nicht eingelesen werden.

 

Das LLM soll im Spätsommer unter der Apache-2.0-Lizenz veröffentlicht werden. Die Modellarchitektur, die Trainingsmethoden und die Nutzungsrichtlinien werden in einer begleitenden Dokumentation ausführlich beschrieben, um eine transparente Wiederverwendung und Weiterentwicklung zu ermöglichen.

 

www.ethz.ch

Zürich 23.07.2025
Beitrag von: ETH Zürich
Bildquelle: SNSC

Wir verwenden Cookies, um Ihnen ein optimales Nutzererlebnis zu bieten. Einige Cookies sind für den Betrieb der Seite notwendig, andere dienen Statistikzwecken, Komforteinstellungen oder zur Anzeige personalisierter Inhalte. Sie können selbst entscheiden, welche Cookies Sie zulassen wollen. Bitte beachten Sie, dass aufgrund Ihrer Einstellung womöglich nicht mehr alle Funktionalitäten der Seite verfügbar sind. Weitere Informationen finden Sie in unserer Datenschutzerklärung und Cookie Policy. Details anzeigen