Google fait son mea culpa et relance Gemini avec une fonction de génération d’images améliorée.

Google fait son retour sur la scène de la génération d’images par IA.

Après avoir suspendu cette fonctionnalité de Gemini en février dernier suite à une série de polémiques, le géant de la tech annonce une mise à jour majeure.

Au menu : des images plus réalistes, une meilleure gestion de la diversité et des garde-fous éthiques renforcés.

Un pas en avant, deux précautions

La principale nouveauté, c’est l’arrivée d’Imagen 3, le dernier-né des modèles de génération d’images de Google.

Présenté lors des I/O 2024, ce petit prodige promet monts et merveilles. Son atout maître ? La capacité de créer des images photoréalistes de personnes à partir de simples descriptions textuelles. Fini les résultats bizarroïdes qui ont fait tant jaser, Google assure que cette fois, c’est du sérieux.

Mais ne vous attendez pas à pouvoir créer le portrait robot de votre voisin ou à ressusciter numériquement des célébrités disparues. Google a mis le paquet sur les garde-fous. Exit les « individus photoréalistes et identifiables« , les mineurs, ou encore les scènes trop violentes ou sexuelles. L’entreprise joue la carte de la prudence.

Dave Citron, le boss de la gestion produit chez Gemini, se veut rassurant : « Dans une large gamme de tests, Image 3 fonctionne favorablement par rapport aux autres modèles d’imagerie« . Traduction : on a bossé dur pour éviter les bourdes du passé. Et pour enfoncer le clou, Google a même ressorti son outil SynthID, histoire de bien marquer les images générées par l’IA. Pas question de laisser planer le doute.

L’Histoire, un casse-tête pour l’IA

Souvenez-vous de la polémique des « inexactitudes historiques » qui avait mis le feu aux poudres. Gemini qui nous pondait des rois noirs d’Angleterre ou des nazis asiatiques, ça avait fait grincer pas mal de dents. Google l’assure : cette fois, on a mis le paquet pour éviter ce genre de faux pas.

L’entreprise a mis en place tout un arsenal pour détecter et bloquer les images problématiques. Un « classificateur multimodal » (comprenez : un logiciel super pointu) est chargé de repérer les représentations potentiellement néfastes. L’objectif ? Trouver le juste milieu entre la diversité et l’exactitude historique. Pas facile.

« Avec Imagen 3, nous avons fait des progrès significatifs en offrant une meilleure expérience utilisateur lors de la génération d’images de personnes » Google

Mais attention, Google prévient : Image 3 ne sera pas parfait. On peut s’attendre à quelques ratés ici et là. L’important, c’est qu’on ne devrait plus voir de contenu vraiment choquant ou complètement à côté de la plaque historiquement parlant. Du moins, c’est ce qu’on nous promet.

Un déploiement prudent et progressif

Ne vous attendez pas à pouvoir jouer avec Imagen 3 dès demain matin. Google a opté pour un déploiement en douceur. Dans un premier temps, seuls les abonnés à Gemini Advanced (la version payante, donc) auront droit à ce nouveau joujou. Et encore, la génération d’images photoréalistes de personnes ne sera pas disponible tout de suite.

C’est une stratégie compréhensible. Google veut éviter à tout prix un nouveau bad buzz. En limitant l’accès et en recueillant les retours des premiers utilisateurs, l’entreprise espère peaufiner son outil avant un déploiement plus large.

En plus de l’intégration de la nouvelle version d’Imagen dans Gemini, Google a annoncé que ses clients professionnels pourraient commencer à créer des Gems, qui sont des versions personnalisées de Gemini pouvant être utilisées dans plein de cas : développement logiciel, coach d’apprentissage ou éditeur d’écriture.

