La société Stability AI, à qui l'on doit l'IA de génération d'images Stable Diffusion, a publié un nouveau modèle de langage open-source, baptisé StableLM. Un modèle qui vient se positionner en concurrent de ChatGPT, bien qu'il soit loin d'être le premier.

Le chatbot d’OpenAI ChatGPT a de plus en plus de concurrence. Le dernier en date pourrait bien en être un sérieux, puisqu’il s’agit de StableLM, créé par l’entreprise Stability AI, à qui l’on doit notamment Stable Diffusion, un outil de génération d’images par intelligence artificielle, dans la même veine que Dall-E ou MidJourney.

StableLM : qu’est-ce que ce nouveau modèle de langage ?

Dans un article de blog, l’entreprise déclare avoir publié un nouveau modèle de langage open-source. Son petit nom ? StableLM. Un modèle pour le moment publié en version alpha et qui prend en compte jusqu’à 7 milliards de paramètres. Un programme open-source, ce qui veut dire que tous les développeurs peuvent l’utiliser, que ce soit pour de la recherche ou à des fins commerciales (StableLM est sous licence CC BY-SA-4.0).

Dans le futur, StableLM pourrait atteindre jusqu’à 65 milliards de paramètres. Pour le moment, il a été entraîné sur des données open-source à l’aide de modèles de langage antérieurs et en collaboration avec un centre de recherche à but non lucratif du nom d’EleutherAI. Stability AI dit avoir mis l’accent sur le jeu de données construit par The Pile, mais en trois fois plus grand. L’intérêt étant de pouvoir avoir des performances élevées tout en ayant un nombre de paramètres restreint pris en compte lors de la génération. Cela justifie en tout cas l’immense écart de ce nombre par rapport à celui de GPT-3, qui est de 175 milliards. Un écart encore plus gargantuesque quand GPT-4 aurait recours à 100 000 milliards de paramètres.

À quoi va servir ce chatbot ?

Stability AI précise que les modèles de langage créés « peuvent générer du texte et du code et alimenteront une série d’applications en aval. Ils démontrent comment des modèles petits et efficaces peuvent fournir des performances élevées avec une formation appropriée. »

La philosophie de StableLM apparaît alors différente de GPT-4. Quand ce dernier a pour ambition de tout faire, le premier veut pouvoir s’adapter à des usages spécifiques en étant entraînés pour ces usages. De quoi permettre son intégration plus simple dans des applications, facilitée par le fait que le modèle soit open-source. Les développeurs peuvent librement l’adapter tout en en gardant le contrôle.

Pour faire la démonstration de StableLM, plusieurs exemples ont été publiés, comme la rédaction d’un email à partir de la requête précédente, qui demandait ce qu’on pourrait dire à un ami qui devient bachelier. Autre exemple : l’écriture d’un battle de rap entre un réseau neuronal et une intelligence artificielle symbolique (une IA s’appuyant sur des règles permettant de limiter les prises de décision autonomes). Enfin, il peut coder des programmes en C, bien que le chatbot reconnaisse ne pas être capable de fournir un programme complet.

Des concurrents de ChatGPT et de GPT-4 qui se multiplient

Comme Dolly, un autre modèle de langage, StableLM s’appuie sur le fait qu’il soit open-source pour se démarquer de GPT-4 et plus largement d’OpenAI. C’est aussi pour cela que Stable Diffusion peut fonctionner en local sur un ordinateur (avec une bonne carte graphique toutefois).

L’intérêt de l’open-source est aussi de permettre à des chercheurs de « vérifier les performances, travailler sur des techniques d’interprétation, identifier les risques potentiels et contribuer à l’élaboration de mesures de protection. » Quand ChatGPT est décrié pour sa fermeture et les problèmes de protection de données que cela engendre, d’autres tentent de montrer patte blanche pour faire leur chemin.

