Cette IA de Google discute avec vous pour vous décrire n’importe quelle image, c’est impressionnant

 

Google présente une nouvelle fonctionnalité poussée par l'intelligence artificielle dans son application Lookout - Vision assistée. Les personnes malvoyantes peuvent ainsi discuter avec l'IA pour lui demander, au travers de plusieurs questions, tous les détails d'une image.

Via la fonction Image Q&A de l’application Google Lookout, on peut discuter avec une IA pour lui demander de décrire une image

Décrire une image n’est plus un défi très complexe pour une intelligence artificielle bien rodée. Cependant, Google a réussi à pousser le concept un peu plus loin pour le rendre plus pratique et impressionnant. Le géant américain vient de dévoiler la fonction « Image Q&A » dans son application d’accessibilité Lookout – Vision assistée et nous avons pu en avoir une brève démonstration pendant la Google I/O 2023 quelques jours auparavant.

Le concept se résume facilement : vous posez n’importe quelle question pour comprendre ce qu’il y a dans l’image et l’intelligence artificielle vous fournit à chaque fois une réponse claire. L’objectif de cette fonction — et de Lookout en général — est d’aider les personnes malvoyantes à savoir ce qu’il y a dans une photo ou un dessin. D’où la notion de Q&A qui signifie questions-réponses. La démo, elle, avait un petit quelque chose d’assez bluffant.

Concrètement, vous téléversez une image dans l’application et vous demandez à l’IA de la décrire. Cette dernière va s’exécuter et vous expliquer ce que l’on voit. Cette première description est efficace et pourrait suffire si vous souhaitiez juste un résumé rapide. Cependant, pour celles et ceux qui ont besoin d’aller plus dans les détails, il suffit de poser une question, à l’écrit ou à voix haute.

L’IA répond à vos questions pour décrire l’image

Pendant la démonstration à l’I/O, l’option Image Q&A de Lookout était confrontée à une image et voici la conversation qu’elle a ensuite eue avec l’utilisateur humain.

IA : Sur cette image, je peux voir un chien courir sur la plage. Je peux aussi voir qu’il a une balle dans sa gueule. En arrière-plan, je peux voir de l’eau, des montagnes et le ciel.

Humain : De quelle race est le chien ?

IA : Le chien est un croisement.

Humain : Est-ce que le chien a l’air joueur ?

IA : Oui, le chien est joueur.

Humain : Décris l’océan.

IA : L’océan est calme et il y a une montagne en arrière-plan.

Humain : Est-ce que les vagues sont grandes ?

IA : Non les vagues sont petites.

Humain : Y a-t-il des nuages dans le ciel ?

IA : Oui, il y a un nuage dans le ciel.

Humain : La plage est-elle bondée ?

IA : Non, la plage est vide.

La conversation n’est pas forcément la plus naturelle, mais elle a assez de fluidité et de clarté pour représenter une solution intéressante pour les personnes malvoyantes qui, sur le web, doivent souvent se contenter de description très sommaire.

Là, elles ont un outil avec un beau potentiel pour leur donner une idée précise d’une image.

Nous avons filmé la démonstration en question. Précisons simplement que cet enregistrement n’est pas de grande qualité, il avait surtout une vocation de support pour la rédaction de cet article.

Rappelons enfin que Lookout est une application disponible depuis un bon moment sur le Play Store. Cet outil d’accessibilité avait déjà plusieurs fonctionnalités intéressantes pour les personnes malvoyantes : lecture de cartes de visite et de fidélité ou d’étiquettes, détection de la valeur d’un billet de banque et aide pour scanner un document.


Le saviez-vous ? Google News vous permet de choisir vos médias. Ne passez pas à côté de Frandroid et Numerama.

Lookout - Vision assistée

Lookout - Vision assistée