La génération d’images en local sur smartphone, c’est possible en 12 secondes

 

Qualcomm fait à nouveau la démonstration de ControlNet : une IA qui fonctionne en local sur un smartphone Android. À partir d'une image source et d'une description, elle est capable de générer une image en 12 secondes.

12 secondes suffisent à un smartphone Android pour générer une image // Source : Qualcomm

Et si l’avenir de l’IA ne se jouait pas dans de gros serveurs remplis de GPU, mais au contraire tout près de nous, sur nos appareils. C’est ce que cherche à réaliser Qualcomm, fondeur de SoC pour smartphone et ordinateurs portables. Le constructeur a réussi à créer un programme d’intelligence artificielle capable de générer des images depuis un simple smartphone.

Générer une image avec un smartphone, c’est possible en 12 secondes

En février, Qualcomm faisait une première démonstration du fonctionnement de Stable Diffusion sur un smartphone Android. Le fabricant a réitéré l’expérience lors de la Conference on Computer Vision and Pattern Recognition (CVPR), conférence scientifique organisée chaque année par l’IEEE, une association professionnelle américaine d’ingénieurs en électronique.

ControlNet en fonctionnement sur un smartphone // Source : Qualcomm

La division dédiée à la recherche scientifique autour de l’IA de Qualcomm y a fait la présentation de ControlNet, un modèle d’IA de vision et de langage (LVM) composé de 1,5 milliard de paramètres. Il permet de contrôler précisément la génération d’images en indiquant à Stable Diffusion en entrée une image et une description textuelle.

Schéma de fonctionnement de ControlNet // Source : Qualcomm

Au total, ce sont 16 étapes qui sont nécessaires à la génération d’une image. Dans la démonstration vidéo publiée par Qualcomm AI Research, on voit que l’IA crée les contours des objets, puis ajoute les couleurs et textures pour enfin combiner les deux.

Pourquoi faire fonctionner une IA « en local »

Un modèle qui fonctionne entièrement sur un smartphone et qui permet de générer des images en moins de 12 secondes. La particularité ici, c’est qu’aucun accès à Internet ou à un service de cloud n’est requis : les calculs sont effectués directement une puce de Qualcomm. Le modèle utilisé n’est pas un smartphone commercialisé, mais un appareil de test développé par Qualcomm, équipé de la puce Snapdragon 8 Gen 2.

Le schéma du fonctionnement de ControlNet // Source : Qualcomm

Les intérêts d’utiliser une IA « en local » sont multiples selon Qualcomm. Cette méthode serait moins chère, plus performante, offrirait davantage de personnalisation, de protection des données et de sécurité. De quoi aussi réduire la consommation électrique de la génération d’images par IA, défi de plus en plus important dans un contexte de réchauffement climatique et de réduction de la consommation.

Toutefois, il ne s’agit que d’une démonstration : comme on peut le voir dans les exemples montrés, le résultat est loin de ce que peut proposer Midjourney, modèle d’IA bien plus poussé, notamment, dans sa version 5.

Des exemples d’images générées à l’aide de ControlNet depuis un smartphone // Source : Qualcomm

Une méthode sur laquelle tend à se pencher Google, qui voudrait permettre de faire de la génération par IA directement dans Chrome. Du côté des générateurs de texte, on sait que LLaMA, le modèle de langage de Meta ayant fuité il y a quelques mois, est en capacité de fonctionner sur un ordinateur.


Téléchargez notre application Android et iOS ! Vous pourrez y lire nos articles, dossiers, et regarder nos dernières vidéos YouTube.

Les derniers articles