OpenLLM France

de l’IA ouverte et transparente, centrée sur le français

Des communs numériques pour la langue française qui donnent aux chercheurs, ingénieurs et enseignants les outils d’IA ouverts et souverains

GitHub

À propos de nous

OpenLLM France est un projet de recherche financé par la BPI depuis septembre 2024 pour une durée de deux ans. Issu de la création de la communauté OpenLLM France qui rassemble un ensemble d’acteurs, académiques et industriels, concernés par les modèles génératifs réellement open source, le consortium est composé de 9 partenaires officiels, appuyés par 12 partenaires associés.

Associated partners

Notre philosophie

Notre objectif est de produire des communs numériques et partager des savoir-faire pour développer en France des applications d’IA éthiques et ouvertes maîtrisant notre langue.

Collecte et traitement de données en français

Augmenter et améliorer les corpus français permet de minimiser les biais introduits par les corpus anglais, largement surreprésentés dans les jeux de données ouverts destinés à l’entraînement des modèles d’IA.

Redistribution de nos données sous format ouvert

Nous republions nos jeux de données tels qu’ils ont été préparés pour l’entraînement afin de permettre l’auditabilité des données et modèles.

Partage des poids des modèles sous licence open source

Partager les sauvegardes intermédiaires des modèles lors de leur pré-entraînement permet d’étudier les mécanismes d’apprentissages des modèles et la réutilisation d’une étape pour éviter de repartir de zéro.

Publication du code utilisé pour l’entraînement

Publier des codes pour l’entraînement et la préparation de données sous licence open source peut favoriser l’interprétabilité et aider d’autres chercheurs et ingénieurs souhaitant entraîner leurs propres modèles.

Nos sujets de recherche

Nous sommes des chercheurs, développeurs et praticiens à la frontière de plusieurs domaines.

Multilinguisme

De l’éducation à la santé, l’IA dans les pays francophones a besoin de solides compétences en français, souvent négligées par les modèles centrés sur l’anglais. Nous fournissons des ressources adaptées au français tout en faisant progresser la recherche sur l’entraînement de modèles francophones, bilingues et multilingues.

Données propres

Notre travail est guidé par un engagement en faveur de la transparence des données et du respect de la propriété intellectuelle, en totale conformité avec les directives européennes. Même si cette approche peut entraîner une légère baisse des performances des modèles, nous croyons que les bénéfices à long terme du partage ouvert des données d’entraînement l’emportent largement, en stimulant la recherche et les développements futurs.

Multimodalité

Éducation

L’un des objectifs majeurs de notre projet est d’améliorer l’usage de l’IA dans le domaine de l’éducation. Cela implique de travailler avec les enseignants pour développer des modèles qui soutiennent à la fois les enseignants et les apprenants dans des cas d’usage concrets, mais surtout de collaborer avec des experts afin de sensibiliser aux risques liés à l’IA et aux bonnes pratiques.

Découvrez nos ressources

Lucie-7B, notre premier modèle fondation entraîné à partir de zéro, est le plus gros modèle fondation qui a été entraîné sur plus de 30 % de données françaises ! Pour découvrir la famille de modèles Lucie ainsi que leurs données d’entraînement :

Lucie-7B

Lucie Dataset

Milliards de paramètres

Taille du modèle : 7 milliards de paramètres – compact et optimisé pour des performances élevées dans diverses applications. En 2025, nous construirons une version plus compacte (<3B).

Milliards de tokens

Jeu de données d’entraînement : 2 300 milliards de tokens, soigneusement sélectionnés pour équilibrer qualité et diversité, en incluant le français, l’anglais, l’allemand, l’espagnol, l’italien et le code.

Langues européennes

Approche multilingue, avec un accent particulier sur le français et les principales langues européennes, assurant une représentation culturelle et linguistique.

Nos engagements pour des IA génératives sobres

Le numérique représente aujourd’hui 3 à 4 % des émissions de gaz à effet de serre (GES) dans le monde et 2,5 % de l’empreinte carbone nationale ainsi que 10 % de notre consommation électrique.
Dans cette problématique, l’explosion de l’IA générative ne pourra être qu’un accélérateur dans l’augmentation de 60 % des émissions GES déjà attendues pour le numérique d’ici à 2040.

Envie d’en savoir plus ?

Contactez nous à contact@openllm-france.fr !