Grok 4.1 : xAI déploie son IA « anti-hallucination » juste avant la sortie de Gemini 3

 
Alors que la bataille de l’IA s’intensifie avec la sortie récente de ChatGPT 5.1 et l’arrivée imminente de Gemini 3 cette semaine, xAI tente de capter l’attention. L’entreprise d’Elon Musk déploie Grok 4.1, une mise à jour qui promet d’en finir avec les erreurs factuelles tout en dominant les classements de performance.
Grok 4.1 // Source : ElR – Frandroid

C’est un calendrier qui ne doit rien au hasard. Quelques jours seulement après le lancement de ChatGPT 5.1 et juste avant la présentation attendue de Gemini 3, xAI abat ses cartes avec Grok 4.1. Disponible dès maintenant pour les abonnés Premium+ sur X et via une API, ce nouveau modèle se décline en deux versions distinctes et revendique une amélioration drastique de sa fiabilité factuelle.

Deux cerveaux valent mieux qu’un

Pour cette version 4.1, xAI a choisi de scinder son offre en deux configurations techniques distinctes, répondant à des besoins opposés :

  • Grok 4.1 Thinking (nom de code : quasarflux) : il s’agit du modèle le plus performant, capable de « raisonner » avant de répondre. Selon les chiffres communiqués par l’entreprise, cette version s’empare de la première place du classement LMArena Text Arena avec un score Elo de 1483, devançant de 31 points le meilleur modèle concurrent, Gemini 2.5 Pro
  • Grok 4.1 Non-Thinking (nom de code : tensor) : conçue pour la vitesse, cette version répond directement sans temps de latence lié au raisonnement. Fait notable, d’après les chiffres de xAI cette version « allégée » surpasse également tous les modèles concurrents avec un score Elo de 1465 points.
Grok 4.1 // Source : xAI

Ces modèles ont été testés lors d’un déploiement silencieux du 1er au 14 novembre 2025, où Grok 4.1 a été préféré à la version précédente dans près de 65 % des cas lors de tests à l’aveugle, dixit xAI.

La promesse : trois fois moins d’hallucinations

Le talon d’Achille des modèles de langage reste leur propension à inventer des faits. Sur ce point, xAI revendique une réduction par trois du taux d’hallucination par rapport à Grok 4.

D’après les benchmarks fournis, notamment le FActScore (un test de 500 questions biographiques), le taux d’erreur est passé de 9,89 % sur la génération précédente à seulement 2,97 % pour Grok 4.1. Une amélioration rendue possible par un entraînement ciblé sur des requêtes de recherche d’informations réelles.

Grok 4.1 // Source : xAI

Sur le plan des interactions humaines, le modèle affiche également des progrès en « intelligence émotionnelle ». Sur le benchmark EQ-Bench3, qui évalue l’empathie et les compétences interpersonnelles, Grok 4.1 obtient un score de 1586, contre 1206 pour son prédécesseur. Là également, il se positionne tout en haut du classement.

Grok 4.1 // Source : xAI

À noter tout de même que toutes les valeurs remontées par xAI ne tiennent pas compte de GPT 5.1 et du futur Gemini 3 qui s’annonce excellent.

Sécurité et limites : ce que disent les documents techniques

Grok 4.1 affiche une politique de sécurité stricte, se positionnant au niveau des leaders du marché, malgré quelques nuances :

  • Filtrage efficace : Avec un taux de refus de 93 à 95% sur les requêtes sensibles (armes, violence), il s’aligne sur les standards de sécurité d’OpenAI et d’Anthropic.
  • Robustesse aux attaques : Sa vulnérabilité aux « prompt injections » (12 à 20% de succès) le place dans la moyenne des grands modèles commerciaux, bien qu’il reste une marge de progression face aux meilleures défenses actuelles qui sont inférieures à 15% comme ChatGPT ou Claude.
  • Limites de raisonnement : Performant sur l’assistance technique, il reste en retrait sur le raisonnement complexe multi-étapes, domaine où ChatGPT demeure la référence.

Enfin, xAI a dû mettre en place des filtres d’entrée spécifiques pour rejeter les demandes concernant la création d’armes biologiques ou chimiques, des domaines où le modèle possède des connaissances théoriques potentiellement dangereuses.

Disponibilité et Tarification

Grok 4.1 est disponible immédiatement pour les utilisateurs de X via l’abonnement Premium+. Le mode « Auto » de l’application bascule désormais par défaut sur cette nouvelle version.

Pour les développeurs, l’API est accessible au tarif de 5 $ par million de tokens, un positionnement agressif pour tenter de séduire l’écosystème technique avant l’arrivée imminente de la réponse de Google avec Gemini 3.


Si vous voulez recevoir les meilleures actus Frandroid sur WhatsApp, rejoignez cette discussion.

Recherche IA boostée par
Perplexity