OpenLLM France
de l’IA ouverte et transparente, centrée sur le français
Des communs numériques pour la langue française qui donnent aux chercheurs, ingénieurs et enseignants les outils d’IA ouverts et souverains
À propos de nous
OpenLLM France est un projet de recherche financé par la BPI depuis septembre 2024 pour une durée de deux ans.
Issu de la création de la communauté OpenLLM France qui rassemble un ensemble d’acteurs, académiques et industriels, concernés par les modèles génératifs réellement open source, le consortium est composé de 9 partenaires officiels.
Ces 9 partenaires sont appuyés par 12 partenaires associés, y compris :
Notre philosophie
Notre objectif est de produire des communs numériques et partager des savoir-faire pour développer en France des applications d’IA éthiques et ouvertes maîtrisant la langue française.
Développement de jeux de données français
Créer et améliorer des corpus français permet de minimiser les biais introduits par l’anglais, largement surreprésenté dans les données d’entraînement ouvertes.
Redistribution de nos données sous format ouvert
Nous republions nos jeux de données tels qu’ils ont été préparés pour l’entraînement afin de permettre l’auditabilité des données et modèles.
Partage des modèles sous licence open
Nous partageons les poids finaux et intermédiaires de nos modèles fondation afin de faciliter la recherche et pré-entraînement à partir des sauvegardes intermédiaires.
Publication du code utilisé pour l’entraînement
Le partage du code utilisé pour l’entraînement et le traitement des données favorise l’interprétabilité et aide les autres à se lancer dans l’entraînement de modèles.
Nos sujets de recherche
Nous sommes des chercheurs, développeurs et praticiens à la frontière de plusieurs domaines.
Multilinguisme
De l’éducation à la santé, l’IA dans les pays francophones a besoin de solides compétences en français, souvent négligées par les modèles centrés sur l’anglais. Nous fournissons des ressources adaptées au français tout en faisant progresser la recherche sur l’entraînement de modèles francophones, bilingues et multilingues.
Données propres
Notre travail est guidé par un engagement en faveur de la transparence des données et du respect de la propriété intellectuelle, en totale conformité avec les directives européennes. Même si cette approche peut entraîner une légère baisse des performances des modèles, nous croyons que les bénéfices à long terme du partage ouvert des données d’entraînement l’emportent largement, en stimulant la recherche et les développements futurs.
Multimodalité
De nombreux cas d’usage tirent parti de systèmes d’IA capables de comprendre la voix humaine et d’analyser des informations visuelles comme des graphiques ou des tableaux. Avec nos partenaires académiques, nous explorons des approches plus avancées pour concevoir des assistants multimodaux conversationnels.
Éducation
L’un des objectifs majeurs de notre projet est d’améliorer l’usage de l’IA dans le domaine de l’éducation. Cela implique de travailler avec les enseignants pour développer des modèles qui soutiennent à la fois les enseignants et les apprenants dans des cas d’usage concrets, mais surtout de collaborer avec des experts afin de sensibiliser aux risques liés à l’IA et aux bonnes pratiques.
Découvrez nos ressources
La famille Luciole est notre toute nouvelle gamme de modèles de langage pré-entraînés. Tout comme Lucie 7B, les modèles Luciole ont été entraînés sur environ 30% de données françaises.
Découvrez Luciole 1B, 8B et 23B ainsi que les données d’entraînement sur Hugging Face. Notre code pour le traitement des données et l’entraînement des modèles se trouvent dans notre espace GitHub.
Tailles de modèles
1B pour les cas edge, 8B Mamba-hybride pour les longs contextes et 23B pour de meilleures performances et raisonnement.
Milliards de tokens
Soigneusement sélectionnés pour équilibrer qualité et diversité, tout en restant fidèles à notre engagement en faveur de l’ouverture et de la transparence.
Langues
Approche multilingue, avec un accent particulier sur le français et les principales langues européennes, assurant une représentation culturelle et linguistique.
LUCIE 7B
Lucie-7B, notre premier modèle fondation entraîné à partir de zéro, était le premier grand modèle de langage centré sur le français, entraîné sur plus de 30 % de données françaises.
Pour découvrir la famille de modèles Lucie ainsi que leurs données d’entraînement, venez voir nos espaces sur Hugging Face and GitHub.
Nos engagements pour des IA génératives sobres
Dans le cadre de notre engagement envers un développement durable, nous effectuons une analyse de cycle de vie environnementale des modèles en se basant sur la méthodologie AFNOR du Référentiel général pour l’IA frugale. Cette évaluation englobe toutes les étapes du processus, depuis l’entraînement jusqu’à l’inférence.


