J'ai testé le nouveau ChatGPT Images - c'est une amélioration considérable, et un plaisir énorme

Illustration


A retenir sur la nouvelle version de l'outil de génération d'image d'OpenAI

  • ChatGPT Images est une amélioration majeure par rapport aux outils d'images précédents.
  • Le rendu du texte et la recontextualisation sont désormais étonnamment précis.
  • Les modifications changent encore les détails mais évitent les résultats étranges.

Cela fait moins d'une semaine que OpenAI a présenté GPT-5.2. Aujourd'hui, voici une autre mise à jour majeure de la capacité de génération d'images de ChatGPT.

Poursuivant sa tendance à nommer ses produits sans jamais consulter un chef de produit, cette nouvelle fonctionnalité est appelée "les nouvelles images ChatGPT" ou, alternativement, GPT Image 1.5. Le générateur d'images est disponible dans tous les niveaux d'abonnement de ChatGPT, y compris le niveau gratuit.

Une petite remarque : la nouvelle fonctionnalité ChatGPT Images ne semble pas encore être arrivée dans mon application ChatGPT Mac, donc pour l'instant je fais tout dans Chrome.

Un premier regard sur la nouvelle application

Je jette donc un premier coup d'œil sur ce que le nouveau ChatGPT Images peut produire.

L'une des grandes nouveautés est la recontextualisation beaucoup plus précise des images. L'IA peut modifier l'image, y intégrer de nouveaux éléments, en changer l'aspect ou le contenu, ou prendre une image de départ et en faire quelque chose d'intéressant.

Commençons par cette image de moi marchant dans un parc.

yellow-shirt

David Gewirtz/ZDNET

Changement de couleur et affichage de texte

J'ai téléchargé cette image dans ChatGPT et je lui ai donné ce message : "Mettez l'homme dans une chemise rouge avec un logo "keep calm carry on" sur le devant". Le résultat est cette image. J'ai inclus l'image deux fois. Vous pouvez voir le résultat pur généré par ChatGPT à gauche. Vous pouvez voir ma version annotée du même résultat à droite.

red-shirt-annotated

Capture d'écran par David Gewirtz/ZDNET

Tout d'abord, bien sûr, il a transformé une image large en une image carrée. J'ai réessayé l'exercice avec "conserver le rapport hauteur/largeur" et "le rendre 16:9". Les deux ont été ignorés. Le logiciel a changé la chemise. La représentation du texte et la façon dont le style "keep calm" est normalement utilisé sont absolument remarquables.

Mais il a également apporté des changements subtils et non demandés. Au point (1), il a modifié mon expression. À l'origine, ma bouche était un peu ouverte. ChatGPT m'a donné une grimace. En (2), vous pouvez voir qu'il a modifié la position de la caméra, la faisant passer d'une vue aérienne à une vue plus directe.

Au point (3), il a fait reculer la caméra, montrant davantage la jambe de mon pantalon et ajoutant une ombre. Il a modifié ma position par rapport à l'arbre sur la gauche (au point 4), me faisant avancer et repoussant l'arbre à l'arrière-plan. Au point (5), il a ajouté de l'espace entre mon bras gauche et le gilet et, inversement, a supprimé de l'espace (au point (6)) entre mon bras droit et le gilet. Cela implique un changement subtil de l'emplacement de la caméra. Il a également supprimé le microphone, qui se trouvait en (7) dans l'image originale.

Mon travail est trop amusant

J'ai décidé de jouer sur l'idée de mon T-shirt, qui célèbre le combat classique entre le capitaine Kirk et Gorn dans la série télévisée originale Star Trek. J'ai retéléchargé mon image originale et j'ai demandé à ChatGPT de "placer l'homme devant les rochers de Vasquez". Vasquez Rocks est un célèbre lieu de tournage hollywoodien, et c'est aussi le décor de l'épisode James T. Kirk contre Gorn célébré par ma chemise.

Il est intéressant de noter que la première tentative de ChatGPT a pris l'image précédente qu'elle avait générée et l'a placée dans le nouveau contexte. Ce n'est pas ce que je voulais.

red-vasquez.png

Capture d'écran par David Gewirtz/ZDNET

Mais lorsque j'ai démarré une nouvelle session, que j'ai téléchargé mon image originale et que je lui ai donné la même instruction, j'ai obtenu l'image correcte. Ce qui est également intéressant, c'est que cette fois-ci, j'ai obtenu un format plus grand écran, même si je ne l'avais pas demandé. C'est tout de même assez efficace. ChatGPT n'a pas semblé modifier les ombres, mais elles correspondent à l'image de fond.

yellow-vasquez.png

Capture d'écran par David Gewirtz/ZDNET

Allons-y avec le Gorn

Ensuite, j'ai essayé "Mettez un Gorn au premier plan". Et nous avons obtenu ceci. Je dois dire que cela ressemble beaucoup à une image composée. Le Gorn n'est pas à la bonne taille. Mais c'est un Gorn classique de la série TOS (la série originale).

gorn-composite.png

Capture d'écran par David Gewirtz/ZDNET

Ensuite, je me suis laissé emporter. J'ai demandé : "Mettez l'homme à la chemise jaune à droite de l'image, face à la gauche. Mettez le Gorn à gauche de l'image, face à la droite. Faites-les se faire face comme s'ils étaient sur le point de se battre".

gorn-fight.png

Capture d'écran par David Gewirtz/ZDNET

Cela semble un peu faux. Mais quand même, les ombres sont bonnes, et j'ai l'air de pouvoir le battre. De plus, l'image est tellement méta, avec le lieu, le T-shirt et tout le reste. Alors faisons un pas de plus : "Mettez l'homme dans un uniforme jaune de capitaine de la série originale de Star Trek."

trek-uniform.png

Capture d'écran par David Gewirtz/ZDNET

Erreurs dans les détails

Ici, il y a quelques problèmes. Tout d'abord, il m'a rétrogradé, ne me donnant que deux galons au lieu des trois galons que le capitaine Kirk porte au poignet en tant que capitaine. Mais il a aussi retroussé ma manche droite. Si vous regardez bien, vous verrez qu'il ne manque pas cette partie de la manche, mais qu'elle s'est enroulée autour de mon coude. Cela pourrait arriver lors d'une bagarre.

OK, ça devient trop amusant. "Habillez les Gorns comme Tom Baker dans Dr. Who."

dr-who.png

Capture d'écran par David Gewirtz/ZDNET

Allons encore plus loin dans la bêtise. "C'est l'hiver à Vasquez Rocks. Saupoudrez tout de neige."

winter-gorn.png

Capture d'écran par David Gewirtz/ZDNET

Maintenant, "Habillez l'homme avec des vêtements d'hiver qui seraient fournis par Starfleet. Mais donnez-lui un bonnet en tricot de la marine américaine."

winter-gear.png

Capture d'écran par David Gewirtz/ZDNET

J'ai dit à ChatGPT de "décorer la zone et les rochers pour Noël. Faites en sorte que ce soit festif". Il a intitulé l'image "Holiday showdown at Vasquez Rocks". L'image montrait un sucre d'orge sortant de mon épaule, mais elle a réussi à coller le Père Noël au loin.

santa.png

Capture d'écran par David Gewirtz/ZDNET

Raffinage de prompt vers Noël

Je n'ai pas aimé la façon dont ChatGPT a transformé l'image en vacances. Mais cela m'a amusé. Je lui ai donc dit : "Enlevez le sucre d'orge à droite de l'image. Supprimez les cadeaux. Ajoutez beaucoup plus de lumières. Déplacez la scène au crépuscule pour que les rochers apparaissent, mais les lumières ajoutent également de la chaleur à l'ensemble de la scène. Supprimez l'étoile au sommet des rochers".

more-lights.png

Capture d'écran par David Gewirtz/ZDNET

J'ai ensuite demandé à ChatGPT de transformer cette image en invitation à une fête en lui demandant de "Transformer cette image en une invitation à une fête de vacances pour le 17 décembre".

La première version (à gauche) fonctionne. ChatGPT a réussi à rédiger le texte correctement. Mais après tout le travail effectué sur l'image, elle semble quelque peu générique. J'ai donc décidé d'utiliser les capacités de ChatGPT lui-même, en lui donnant ce message : "Cette invitation à une fête semble quelque peu générique. Veuillez la rendre plus évocatrice du cadre et du contexte. Faites en sorte qu'elle ressemble à une invitation amusante de l'univers et qu'elle corresponde à l'ambiance." C'est la version de droite.

party-duo

Capture d'écran par David Gewirtz/ZDNET

Et wow. À l'origine, il avait écrit "Capitaine Kirk contre Gorn", mais je lui ai demandé de remplacer "Capitaine Kirk" par "Gewirtz". Et voilà le résultat. J'adore.

Une amélioration majeure

Il s'agit d'une nette amélioration par rapport à ce que ChatGPT proposait auparavant. Et de loin. Sa gestion du texte est excellente. Le texte a toujours été un problème majeur pour les générateurs d'images d'IA.

ChatGPT affiche un étrange effet de flou à l'intérieur et à l'extérieur pendant qu'il génère l'image. J'encourage OpenAI à supprimer cet effet, car il peut être un peu nauséabond à regarder. Mais c'est assez rapide, et vous n'avez pas à regarder une image floue de l'intérieur vers l'extérieur.

Cette version de ChatGPT Images va probablement prospérer. La seule chose qui compte, c'est qu'elle est extrêmement amusante.



Source : Lire l'article original

Read more