Midjourney v6 : images plus grandes, jeux vidéo, génération de vidéos, doigts, ce qu’on attend de la prochaine version de l’IA

 

Plusieurs fuites sont survenues à propos de Midjourney v6, nouvelle version de l'intelligence artificielle de génération automatique d'images. Après une v5 impressionnante, les changements apportés prochainement pourraient, eux aussi, être importants. Tour d'horizon de ce qui pourrait changer sur Midjourney.

Deux IA, representées par des robots, s’affrontent // Source : Image créée par Frandroid avec Midjourney

En mars dernier est sorti Midjourney v5, nouvelle version d’un modèle d’intelligence artificielle de génération d’images. Elle apportait une précision jamais vue sur des images créées par un ordinateur, avec des rendus plus riches et plus détaillés. Dans quelques temps pourrait être publié Midjourney v6, son successeur, avec des améliorations notables, qui pourraient le démarquer de ses concurrents comme Stable Diffusion ou Dall-E.

Quand arrivera Midjourney v6 ?

Pour le moment, on ne sait pas grand-chose sur le calendrier de Midjourney, le laboratoire de recherche indépendant créé par David Holz. La v6 de l’outil n’a même pas encore été confirmée. Mais le journaliste Eray Eliaçık de Dataconomy avance une sortie dans les deux prochains mois. Il prévient toutefois que cette date est susceptible de changer en fonction de l’avancement du développement et des tests avant mise à disposition du public.

Les nouveautés qui pourraient arriver sur Midjourney v6

Plusieurs fonctionnalités et améliorations sont attendues sur la future mouture de Midjourney, les voici.

Des images mieux définies

Eray Eliaçık affirme que Midjourney v6 permettra de générer des images avec une taille maximale de 2048 par 2048 pixels, là où aujourd’hui les utilisateurs sont limités à 1024 par 1024 pixels. Ce qui pourrait donner des images quatre fois plus grande qu’actuellement.

Une image d’une Tesla miniature en Lego générée par une IA // Source : Frandroid avec Midjourney

L’intérêt est qu’elles pourront plus facilement être utilisées : réseaux sociaux, fonds d’écran, etc. En effet, la plupart des écrans aujourd’hui ont des définitions supérieures à ce que propose Midjourney. Reste à savoir s’il sera effectivement possible d’avoir de telles images : cela demanderait une puissance de calcul nettement supérieure. Mais c’est l’une des améliorations les plus attendues.

Une meilleure compréhension des demandes

Cette v6 pourrait également comprendre plus précisément ce qu’on lui demande de générer. De quoi permettre des images plus réalistes et plus adéquates. Ce pourrait aussi être un moyen de démocratiser l’outil : à l’heure actuelle, il faut utiliser une certaine ponctuation, placer ses mots dans un certain ordre. Tous ces obstacles font que beaucoup n’essaient pas Midjourney ou n’arrivent pas à réaliser ce qu’ils souhaitent. Midjourney v5 avait déjà permis d’utiliser un langage plus naturel : ce pourrait aller encoure plus loin dans la prochaine version.

Choisir le niveau de variation des images

D’autres rumeurs indiquent que la v6 offrirait une plus grande personnalisation des variantes d’images. Lorsque vous faites une requête à Midjourney, ce dernier vous formule quatre propositions. Prochainement, on pourrait justement choisir le niveau de variété que l’on souhaite dans les propositions, pour qu’elles se rapprochent plus ou moins de la requête.

Résultats avec la commande cyberpunk cat –seed 1071856 –ar 3:2 –v 5 // Source : Frandroid avec Midjourney

Aussi, les changements que l’on souhaite faire sur une image pourraient être plus précis, en changeant un unique détail par exemple. De quoi conserver une image, en modifiant seulement une couleur, une texture, un objet, la netteté d’un élément, etc.

Générer des modèles 3D avec Midjourney v6 : de quoi séduire le jeu vidéo ?

Autre fonctionnalité très importante qui pourrait débarquer : la possibilité de générer des modèles 3D, et ce, dans plusieurs formats. De quoi aider certains utilisateurs, notamment les professionnels de la réalité virtuelle, les passionnés d’impression 3D, les développeurs de jeux vidéo, etc.

Source : OpenAI via GitHub

D’autres générateurs de modélisation 3D existent, comme Shap-E d’OpenAI, qui est encore un prototype. À l’aide d’une simple requête textuelle, le modèle arrive à créer des formes en 3D. Pour le moment, cela prend des heures, mais avec le temps, la génération pourrait être de plus en plus rapide.

La fin des mains avec six doigts ?

L’une des grandes limitations de Midjourney v6 est la création des mains, et plus particulièrement des doigts. Entre les phalanges, les formes des doigts, leur position, tout y est pour tromper l’IA.

Regardez la main de ce portrait d’Elon Musk généré avec Midjourney V5

C’est d’ailleurs l’un des moyens les plus efficaces de savoir si une image a été générée artificiellement ou non. C’est le problème de tous les modèles d’IA de génération d’images et Midjourney n’en est pas épargné. Force est de constater que des efforts avaient été faits avec l’arrivée de Midjourney v5, mais la v6 irait encore plus loin. Les fuites relayées indiquent que l’amélioration des mains serait significative.

Et si Midjourney v6 se mettait à la génération de vidéos ?

Il se pourrait également que Midjourney v6 se mette à générer des vidéos. Ce ne serait pas le seul modèle qui en serait capable. Meta a Make-A-Video, qui peut créer des vidéos à l’aide d’une description textuelle.

Make-A-Video a animé le tableau « Le Christ dans la tempête sur la mer de Galilée » de Rembrandt (1633) //
Source : Meta

Comme pour les modèles en 3D, c’est encore très limité, mais d’ici à quelques années, cela pourrait être bien plus répandu.

À quand une API pour Midjourney ?

L’outil de génération d’images possède une grande limite pour le moment : son utilisation. Pour créer des images, il faut obligatoirement passer par un bot Discord à qui l’on fait des requêtes. Pas de site, pas d’application. L’une des demandes les plus répétées des utilisateurs est de pouvoir utiliser Midjourney où bon leur semble. Une demande compréhensible : cela pourrait décupler les usages de Midjourney.

Source : image créée par Frandroid avec Midjourney

Chez Frandroid, nous pourrions utiliser l’outil directement depuis la page de rédaction de l’article. Il pourrait aussi être intégré dans des suites bureautiques : Microsoft 365, Google Docs, Canva, etc. De quoi aussi aller concurrencer Adobe Firefly, l’IA générative d’Adobe, capable d’agrandir des iamges.

Pour cela, il faudrait avoir recours à une chose : une API. Pour rappel, il s’agit d’un morceau de code qui permet de mettre en relation deux logiciels, sites, applications. Depuis l’un, il fait appel aux services de l’autre. Dans notre cas, le service de destination a besoin d’une API pour aller demander à Midjourney de générer une image, et elle est nécessaire pour réceptionner les propositions.

Pour le moment, l’arrivée de l’API n’a pas été confirmée. Mais sur Twitter, le compte du laboratoire expliquait en mai dernier que cela serait le cas « un jour », sans plus de précisions. Quant à une interface web pour Midjourney, le laboratoire a déclaré ne pas savoir quand est-ce qu’elle arriverait, sans pour autant indiquer qu’elle existerait un jour ou non.


Utilisez-vous Google News (Actualités en France) ? Vous pouvez suivre vos médias favoris. Suivez Frandroid sur Google News (et Numerama).