Les EPF veulent publier un modèle linguistique
L’EPFZ et l'EPFL souhaitent publier un grand modèle linguistique (LLM) à la fin de l'été. Il a été développé et entraîné sur l'infrastructure publique du supercalculateur « Alps » du Centre suisse de calcul scientifique (CSCS).
Selon l’EPFZ, le modèle sera entièrement ouvert : le code source et les pondérations seront accessibles au public, et les données d'entraînement seront transparentes et reproductibles. Cette ouverture favorisera la diffusion et l'utilisation dans les domaines de la science et de l'éducation, ainsi que dans les secteurs public et privé. Cette approche vise à promouvoir à la fois l'innovation et la confiance dans l'IA. « Les modèles totalement ouverts permettent des applications qui garantissent un haut niveau de fiabilité et sont nécessaires pour faire avancer la recherche sur les risques et les opportunités de l'IA. La transparence des processus permet également de respecter la législation », souligne Imanol Schlag, chercheur à l’EPFZ AI Center, qui dirige le projet LLM.
Polyglotte et multiculturel
Ce LLM se distingue par sa maîtrise de plus de 1'000 langues, grâce à un entraînement sur un large corpus multilingue (environ 60% anglais, 40% autres langues) incluant du code et des données mathématiques. Cette diversité lui confère une applicabilité mondiale remarquable.
Le modèle sera publié en deux versions, l'une avec 8 milliards de paramètres et l'autre avec 70 milliards, afin de répondre aux besoins d'un large éventail d'utilisateurs. La version la plus complète sera l'un des modèles entièrement ouverts les plus performants au monde. Le nombre de paramètres reflète la capacité d'un modèle à apprendre et à générer des réponses complexes.
Ce modèle devrait atteindre un haut niveau de fiabilité, car il est entraîné avec plus de 15'000 milliards de tokens d'entraînement de haute qualité (il s'agit d'unités représentant chacune un mot ou une partie de mot) : cette approche permet une compréhension robuste du langage et des cas d'utilisation variés.
Utilisation responsable des données
Selon l’EPFZ, le développement du LLM tient compte de la législation suisse en matière de protection des données, du droit d'auteur suisse et des obligations de transparence prévues par le règlement de l'UE sur l'IA (EU AI Act). Dans une étude récente, les chefs de projet ont démontré que, pour la plupart des tâches quotidiennes et l'acquisition générale de connaissances, le respect des options de désactivation du crawling web lors de la collecte de données – et donc la non-lecture de certains contenus web – n'entraîne pratiquement aucune perte de performance.
Le LLM devrait être publié à la fin de l'été sous licence Apache 2.0. L'architecture du modèle, les méthodes d'entraînement et les directives d'utilisation seront décrites en détail dans une documentation d'accompagnement afin de permettre une réutilisation et un développement transparent.
Contribution de: EPFZ
Source d'image: SNSC