Schweizer Sprachmodell Apertus veröffentlicht
Die EPFL, die ETH Zürich und das schweizerische Supercomputing-Zentrum CSCS haben Anfang September Apertus veröffentlicht: Das erste umfangreiche, offene und mehrsprachige Sprachmodell aus der Schweiz.
Im Juli haben EPFL, ETH Zürich und CSCS bekanntgegeben, dass sie gemeinsam ein grosses Sprachmodell (Large Language Model, LLM) entwickeln. Nun ist dieses Modell verfügbar. Es soll als Grundlage für künftige Anwendungen wie Chatbots, Übersetzungssysteme oder digitale Lernwerkzeuge dienen.
Der Name des Modells ist Apertus – lateinisch für offen. Er betont ein wesentliches Merkmal des Modells: Der gesamte Entwicklungsprozess – einschliesslich Architektur, Modellgewichten sowie Trainingsdaten und -methoden – ist frei zugänglich und umfassend dokumentiert. Für KI-Forschende, Fachpersonen und erfahrene Anwender:innen ist das Modell entweder über die Swisscom zugänglich oder sie können es über die Plattform Hugging Face herunterladen und für eigene Projekte einsetzen.
Apertus steht in zwei frei verfügbaren Modellgrössen bereit – mit 8 Milliarden sowie mit 70 Milliarden Parametern. Die kleinere Variante eignet sich besonders für eine individuelle Nutzung. Beide Modelle werden unter einer permissiven, das heisst nutzungsfreundlichen Open-Source-Lizenz veröffentlicht. Diese lässt einen Gebrauch in Bildung und Forschung ebenso zu wie breite gesellschaftliche und wirtschaftliche Anwendungen.
Ein vollständig offenes LLM
Fachleute und erfahrene Anwender:innen können auf dem Modell aufbauen, es an ihre individuellen Bedürfnisse anpassen und jeden Teil des Trainingsprozesses transparent nachvollziehen. Damit unterscheidet sich Apertus deutlich von Modellen, bei denen nur ausgewählte Komponenten zugänglich sind. «Mit dieser Veröffentlichung möchten wir ein Musterbeispiel dafür geben, wie sich ein vertrauenswürdiges, souveränes und inklusives KI-Modell bauen lässt», sagt Martin Jaggi, Professor für Maschinelles Lernen an der EPFL und Mitglied des Steering Committees der Swiss AI Initiative. Das Modell wird regelmässig vom Entwicklungsteam aktualisiert, dem spezialisierte Ingenieur:innen sowie zahlreiche Forschende von CSCS, ETH Zürich und EPFL angehören.
Apertus wurde auf 15 Billionen Worteinheiten (engl. Tokens) aus über 1000 Sprachen trainiert – 40 Prozent der Daten sind nicht-englischsprachig. Damit umfasst Apertus zahlreiche Sprachen, die in bisherigen LLMs untervertreten sind, darunter Schweizerdeutsch, Rätoromanisch und viele andere.
Beitrag von: ETHZ/EPFL
Bildquelle: ETH/Molinari Design