Le Consortium OpenLLM France réunit 17 acteurs qui se sont rassemblés dans le prolongement de la création de la communauté OpenLLM France qui fédère à ce jour un écosystème de près de 200 entités (laboratoires publics de recherche, fournisseurs potentiels de données, acteurs technologiques spécialisés, fournisseurs de cas d'usage...). Ces acteurs échangent de manière publique et transparente depuis le début de l’été 2023 sur le serveur Discord de la communauté.
Une famille de LLM multimodaux ouverts, sobres et performants, pour offrir transparence et contrôle
À propos de nous
Le consortium OpenLLM France c'est 17 acteurs accompagnés de personnalités qualifiées et reconnues pour leurs travaux en lien avec les enjeux de l’AAP.
Une complémentarité naturelle des acteurs entre des laboratoires publics de recherche, des associations, des fournisseurs de données, des acteurs technologiques spécialisés ainsi que des fournisseurs de cas d'usage.
Pour en savoir, vous pouvez télécharger une présentation de nos travaux ici :
Les cas d’usage critiques visés par le consortium, nécessitant soit de la sûreté de fonctionnement, soit des contraintes spécifiques liées à la sensibilité des données d’apprentissage, imposent des exigences non couvertes par les LLM actuels.
Raison d’être de notre projet
Une approche pragmatique et économe tout en améliorant l’état de l’art
Il s’agit de faire progresser l'état de l'art de la recherche académique visant à démontrer que des modèles sobres et spécialisés, dont la cible de taille serait idéalement de 1,5 milliard de paramètres mais entraînés sur des données de haute qualité, peuvent rivaliser avec les plus grands LLM.
Conscient que ces modèles ne peuvent bien entendu embarquer toute la connaissance nécessaire à la génération de réponses de qualité et disposant d’un haut niveau de confiance, il est donc nécessaire d’envisager l’« hybridation » des modèles. Il s’agit de combiner la puissance générative des LLM avec l’apport de base de données structurées disponibles dans les organisations.
Concrètement lors de l’inférence, nos modèles peuvent interroger des sources de données sûres pour compléter, amender et fiabiliser les réponses générées par le LLM.
Enfin, peu de modèles existants offrent la multimodalité, c'est-à-dire la compétence à interagir avec des médias autres que du texte, souvent injecté via des prompts saisis au clavier. Les modèles développés par le consortium auront donc la possibilité de raisonner à la fois sur des données textuelles et vocales.
Verrous technologiques à lever
Collecter des données d’apprentissage
« propres » en quantité suffisante
---
Fournir des modèles spécialisés et entraînés de manière optimisée
---
Apporter la fiabilité et la sûreté de fonctionnement
---
Définir et contribuer une méthode d’évaluation des modèles sur la langue française
---
Faciliter la mise en opération de modèle sobres et écoresponsables
---
Publier la totalité des composants sous licence Open Source et de manière totalement transparente