Modèle texte-image

Un modèle texte-image (ou texte-image) est un modèle d'apprentissage automatique qui prend en entrée une description en langage naturel et produit une image correspondant à cette description.

Les modèles texte-image commencent à se développer au milieu des années 2010 lors des débuts du boom de l'IA en raison des avancées en apprentissage profond[1] . En 2022, la sortie des modèles texte-image de pointe – tels que DALL-E 2 d'OpenAI, Imagen de Google Brain, Stable Diffusion de Stability AI et Midjourney – s'approche de la qualité des photographies réelles et de l’art dessiné par des humains.

Les modèles texte-image sont généralement des modèles de diffusion latente, qui combinent un modèle de langage, qui transforme le texte d'entrée en une représentation latente, et un modèle génératif d'image, qui produit une image conditionnée par cette représentation. Les modèles les plus efficaces s'entraînent généralement sur d'importantes quantités de données image et texte extraites du web[1].

Histoire

Avant l'essor de l'apprentissage profond[2], les tentatives de construire des modèles texte-image se limitent à des collages en arrangeant des images composantes existantes, telles que celles provenant d'une base de données de clip art[3].

La tâche inverse, le légendage d'images, est plus accessible, et plusieurs modèles de légendage d'images basés sur l'apprentissage profond apparaissent avant les premiers modèles texte-image[4].

Le premier modèle moderne de texte-image, alignDRAW, apparaît en 2015 grâce à des chercheurs de l'Université de Toronto. alignDRAW étend l'architecture DRAW précédemment introduite (qui utilise un réseau de neurones récurrents sous la forme d'un auto-encodeur variationnel récurrent avec un mécanisme d'attention) pour être conditionnée par des séquences de texte[4]. Les images générées par alignDRAW présentent une faible résolution d'image (32×32 pixels, obtenus par redimensionnement d'image) et sont considérées comme «faiblement diverses». Le modèle parvient à généraliser à des objets non représentés dans les données d'entraînement (tel qu'un autobus scolaire rouge) et gère de manière appropriée des consignes inédites telles que «un panneau stop vole dans un ciel bleu», démontrant que sa sortie ne se contente pas de «mémoriser» les données de l'ensemble d'entraînement[4],[5].

En 2016, Reed, Akata, Yan et al. utilisent pour la première fois des réseaux antagonistes génératifs pour la tâche de texte-image[5],[6]. Avec des modèles entraînés sur des ensembles de données étroits et spécifiques à un domaine, ils parviennent à générer des images «visuellement plausibles» d'oiseaux et de fleurs à partir de légendes telles que «un oiseau entièrement noir avec un bec épais et arrondi». Un modèle entraîné sur l'ensemble de données plus diversifié COCO (Common Objects in Context) produit des images qui, «de loin... sont encourageantes», mais qui manquent de cohérence dans leurs détails[5]. Des systèmes ultérieurs incluent VQGAN-CLIP[7], XMC-GAN, et GauGAN2[8].

Crédit image:
licence CC BY-SA 4.0 🛈
Crédit image:
licence CC BY-SA 4.0 🛈
Crédit image:
licence CC BY-SA 4.0 🛈
Crédit image:
licence CC BY-SA 4.0 🛈
Les images générées par DALL·E 2 (en haut, avril 2022) et par DALL·E 3 (en bas, septembre 2023) pour la consigne Un panneau stop vole dans un ciel bleu

L'un des premiers modèles texte-image à capter l'attention du grand public est OpenAI's DALL-E, un système basé sur le transformeur annoncé en janvier 2021[9]. Un successeur capable de générer des images plus complexes et réalistes, DALL-E 2, est dévoilé en avril 2022[10], suivi de Stable Diffusion qui est rendu public en août 2022[11]. En août 2022, la personnalisation texte-image permet d'enseigner au modèle un nouveau concept à l'aide d'un petit ensemble d'images d'un nouvel objet qui n'est pas inclus dans l'ensemble d'entraînement du modèle de base. Ceci s'obtient par inversion textuelle, c'est-à-dire en trouvant un nouveau terme textuel qui correspond à ces images.

À la suite d'autres modèles texte-image, des plateformes texte-vers-vidéo propulsées par des modèles de langage telles que Runway, Make-A-Video[12], Imagen Video[13], Midjourney[14], et Phenaki[15] peuvent générer des vidéos à partir de textes et/ou de consignes textuelles ou image[16].

Architecture et entraînement

Crédit image:
licence CC BY-SA 4.0 🛈
Architecture de haut niveau montrant l'état des modèles d'apprentissage automatique pour l'art par IA, ainsi que des modèles et applications notables, sous forme de carte image SVG cliquable

Les modèles texte-image se construisent à l'aide de diverses architectures. L'étape d'encodage du texte peut être effectuée avec un réseau de neurones récurrents tel qu'un réseau long short-term memory, bien que les modèles transformeur soient depuis devenus une option plus populaire. Pour l'étape de génération d'image, des réseaux antagonistes génératifs conditionnels (GANs) s'utilisent couramment, tandis que les modèles de diffusion gagnent en popularité ces dernières années. Plutôt que d'entraîner directement un modèle à produire une image haute résolution conditionnée par un encodage de texte, une technique populaire consiste à entraîner un modèle à générer des images de basse résolution, puis à utiliser un ou plusieurs modèles d'apprentissage profond auxiliaires pour l'upscaler en complétant les détails fins.

Les modèles texte-image s'entraînent sur d'importants ensembles de paires (texte, image), souvent extraites du web. Avec leur modèle Imagen de 2022, Google Brain rapporte des résultats positifs en utilisant un grand modèle de langage entraîné séparément sur un corpus de texte seul (avec des poids ensuite figés), marquant ainsi une rupture avec l'approche standard jusque-là[17].

Jeux de données

Crédit image:
Stanislav Frolov, Tobias Hinz, Federico Raue, Jörn Hees, Andreas Dengel
licence CC BY 4.0 🛈
Exemples d'images et de légendes provenant de trois ensembles de données publics communément utilisés pour entraîner des modèles texte-image

L'entraînement d'un modèle texte-image nécessite un ensemble de données associant des images à des légendes textuelles. Un ensemble de données couramment utilisé à cet effet est l'ensemble de données COCO. Publié par Microsoft en 2014, COCO se compose d'environ 123 000 images représentant une diversité d'objets avec cinq légendes par image, générées par des annotateurs humains. À l'origine, l'objectif principal de COCO porte sur la reconnaissance d'objets et de scènes dans les images. Oxford-120 Flowers et CUB-200 Birds sont des ensembles de données plus restreints d'environ 10 000 images chacun, se concentrant respectivement sur les fleurs et les oiseaux. Il apparaît moins difficile d'entraîner un modèle texte-image de haute qualité avec ces ensembles de données en raison de leur champ thématique étroit[6].

L'un des plus grands ensembles de données ouverts pour l'entraînement de modèles texte-image est LAION-5B, contenant plus de 5 000 000 000 paires image-texte. Cet ensemble de données s'obtient par extraction web et filtrage automatique basé sur la similarité avec des œuvres d'art de haute qualité et des photographies professionnelles. Cependant, il comporte également du contenu controversé, ce qui suscite des discussions sur l'éthique de son utilisation.

Certaines plateformes d'IA modernes ne se contentent pas de générer des images à partir de texte, elles créent également des ensembles de données synthétiques pour améliorer l'entraînement et l'affinage des modèles. Ces ensembles de données aident à éviter les problèmes de droit d'auteur et élargissent la diversité des données d'entraînement[18].

Évaluation de la qualité

L'évaluation et la comparaison de la qualité des modèles texte-image impliquent l'appréciation de multiples propriétés souhaitables. Un critère spécifique aux modèles texte-image est que les images générées s'alignent sémantiquement avec les légendes utilisées pour les générer. Plusieurs schémas sont mis au point pour évaluer ces qualités, certains automatisés et d'autres basés sur le jugement humain[6].

Une métrique algorithmique courante pour évaluer la qualité et la diversité des images est le Score d'inception, qui se fonde sur la distribution des étiquettes prédites par un modèle de classification d'image Inceptionv3 préentraîné lorsqu'il s'applique à un échantillon d'images générées par le modèle texte-image. Le score augmente lorsque le modèle de classification prédit une étiquette unique avec une forte probabilité, une méthode destinée à favoriser des images générées «distinctes». Une autre métrique populaire est la distance d'inception de Fréchet, qui compare la distribution des images générées à celle des images réelles d'entraînement selon les caractéristiques extraites par l'une des dernières couches d'un modèle de classification d'image préentraîné[6].

Liste des modèles notables de texte-image

Nom Date de sortie Développeur Licence
DALL-E janvier 2021 OpenAI Propriétaire
DALL-E 2 avril 2022
DALL-E 3 septembre 2023
Ideogram 2.0 août 2024 Ideogram
Imagen avril 2023 Google
Imagen 2 décembre 2023[19]
Imagen 3 mai 2024
Parti Non publié
Firefly mars 2023 Adobe Inc.
Midjourney juillet 2022 Midjourney, Inc.
Stable Diffusion août 2022 Stability AI Stability AI Community License
Flux août 2024 Black Forest Labs Apache License
Aurora décembre 2024 xAI Propriétaire
RunwayML 2018 Runway AI, Inc. Propriétaire

Voir aussi

Références

  1. a et b James Vincent, « All these images were generated by Google's latest text-to-image AI », The Verge,‎ (lire en ligne, consulté le )
  2. Jorge Agnese, Jonathan Herrera, Haicheng Tao et Xingquan Zhu, A Survey and Taxonomy of Adversarial Neural Networks for Text-to-Image Synthesis, (arXiv 1910.09399)
  3. Xiaojin Zhu, Andrew B. Goldberg, Mohamed Eldawy, Charles R. Dyer et Bradley Strock, « A text-to-picture synthesis system for augmenting communication », AAAI, vol. 7,‎ , p. 1590–1595 (lire en ligne)
  4. a b et c Elman Mansimov, Emilio Parisotto, Jimmy Lei Ba et Ruslan Salakhutdinov, « Generating Images from Captions with Attention », ICLR,‎ (arXiv 1511.02793)
  5. a b et c Scott Reed, Zeynep Akata, Lajanugen Logeswaran, Bernt Schiele et Honglak Lee, « Generative Adversarial Text to Image Synthesis », International Conference on Machine Learning,‎ (arXiv 1605.05396, lire en ligne)
  6. a b c et d Stanislav Frolov, Tobias Hinz, Federico Raue, Jörn Hees et Andreas Dengel, « Adversarial text-to-image synthesis: A review », Neural Networks, vol. 144,‎ , p. 187–209 (PMID 34500257, DOI 10.1016/j.neunet.2021.07.019 Accès libre, arXiv 2101.09983, S2CID 231698782)
  7. (en) Jesus Rodriguez, « 🌅 Edge#229: VQGAN + CLIP », sur thesequence.substack.com,‎ (consulté le )
  8. (en) Jesus Rodriguez, « 🎆🌆 Edge#231: Text-to-Image Synthesis with GANs », sur thesequence.substack.com,‎ (consulté le )
  9. Devin Coldewey, « OpenAI's DALL-E creates plausible images of literally anything you ask it to », sur TechCrunch,
  10. Devin Coldewey, « OpenAI's new DALL-E model draws anything — but bigger, better and faster than before », sur TechCrunch,
  11. « Stable Diffusion Public Release », sur Stability.Ai (consulté le )
  12. (en-US) Ashish Kumar, « Meta AI Introduces 'Make-A-Video': An Artificial Intelligence System That Generates Videos From Text », sur MarkTechPost, (consulté le )
  13. (en-US) Benj Edwards, « Google's newest AI generator creates HD video from text prompts », sur Ars Technica, (consulté le )
  14. (en) Jesus Rodriguez, « 🎨 Edge#237: What is Midjourney? », sur thesequence.substack.com,‎ (consulté le )
  15. « Phenaki », sur phenaki.video (consulté le )
  16. Benj Edwards, « Runway teases AI-powered text-to-video editing using written prompts », Ars Technica,‎ (lire en ligne, consulté le )
  17. (en) Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang et al., « Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding », .
  18. Martin, « AI-Powered Text and Image Generation », sur Debatly,
  19. (en-US) « Imagen 2 on Vertex AI is now generally available », sur Google Cloud Blog (consulté le )