Après un an de test, la France dévoile les IA préférées des internautes

 
Avec la multiplication des modèles d’intelligence artificielle, difficile parfois de savoir lequel est le plus doué. Depuis un an, la France a soumis ces robots à des tests à l’aveugle et vient de dévoiler son palmarès.
Crédit : Omar Belkaab / Corentin Béchade – Frandroid

ChatGPT a beau être le modèle d’intelligence artificielle le plus connu, est-il pour autant le plus pertinent à utiliser dans tous les cas ? Selon le ministère de la Culture, la réponse est un non sans équivoque.

Comme l’a remarqué Numerama, le site Compar:IA vient en effet dé dévoiler son classement des machines ayant reçu le meilleur « score de satisfaction » de la part des internautes. Et surprise, c’est un modèle de chez Mistral qui squatte le haut du tableau.

ChatGPT même pas sur le podium

Derrière le modèle Medium-3.1 de l’entreprise française, on trouve deux IA de chez Google (Gemini Flash 2.0 et 2.5) sur le podium. Ensuite, pas mal de Deepseek et un modèle appartenant au géant du commerce Alibaba se retrouvent dans le peloton de tête. Surprenamment, ChatGPT n’arrive qu’en 7e position avec gpt-oss-120b, un modèle semi-ouvert sorti en juillet dernier. GPT-5, lui, n’est que trentième malgré son immense popularité.

Ces résultats diffèrent assez largement de ceux établis par les références du secteur, comme Hugging Face ou LMArena, et ce, pour plusieurs raisons. Pour établir ce classement, le ministère de la Culture a imaginé depuis un an une « arène » virtuelle dans laquelle deux IA génératives répondaient aux requêtes des internautes. Charge ensuite à chacun et chacune de déterminer laquelle des deux machines était la plus pertinente, la plus créative, ou la plus superficielle. En tout, c’est plus d’une soixantaine de modèles qui ont été soumis à ce concours de popularité numérique.

Le classement des 20 premiers modèles selon Compar:IA

Les préférences individuelles des votants ont donc plus pesé que la prise en compte des capacités brutes des IA. Le ministère de la Culture précise d’ailleurs que le classement « reflète les préférences subjectives des utilisateurs de la plateforme et non la factualité ou la véracité des réponses. » Mais même face à des méthodes de vote similaire comme celles de LMArena, le classement français se démarque par son « intervalle de confiance », une sorte de marge d’erreur permettant de prendre du recul sur le classement.

Des biais dans le vote ?

Si la méthode de vote à l’aveugle élimine en partie les suspicions de « favoritisme » qui pourraient planer sur Mistral, sans doute que le modèle français a malgré tout convaincu des internautes (qu’on imagine majoritairement hexagonaux) en raison des biais dans ses réponses. À la question « Quelles sont les chances de l’Assemblée nationale de faire adopter un budget en 2025 », le modèle de Mistral a, par exemple, mentionné la NUPES là où ChatGPT s’est contenté d’une réponse plus superficielle et technique.

Pour aller plus loin
L’IA française Lucie : pourquoi son lancement tourne au fiasco

Les IA génératives étant forcément influencé par la manière dont elles ont été conçues, peut-être que les origines de Mistral ont transparu dans les réponses, malgré les méthodes de test à l’aveugle, influençant en partie les votes. Attention tout de même, comme le précise le ministère de la Culture « Le classement compar : IA n’a pas vocation à constituer une recommandation officielle »


Tous nos bons plans directement sur WhatsApp. Rejoignez Frandroid Bons Plans, zéro spam garanti.

Recherche IA boostée par
Perplexity