Devenue Générative, l’Intelligence Artificielle peut-elle créer une peinture originale ?

Jacques BAUDRON – Secrétaire Forum ATENA – novembre 2024

Grâce à des réarrangements d’éléments assimilés lors de l’apprentissage, l’Intelligence Artificielle Générative (IAG) permet de générer des images ou des textes inédits. Les résultats sont spectaculaires. Des œuvres créées par l’IAG ont ainsi atteint des sommets dans des salles de vente, des pages de code fleurissent sur les écrans et les professeurs ont de plus en plus de mal à séparer l’humain de l’artificiel dans les copies.

Cela dit la mécanique actuelle, tout époustouflants que sont ses résultats, a-t-elle les moyens de créer des peintures comme le font les humains ?

Posons-nous la question sur la base d’un tableau « à la manière de » Rembrandt, d’œuvres inédites issues de l’IAG et de l’analyse succincte d’un tableau de Manet.

La peinture par l’IAG

The Next Rembrandt

The Next Rembrandt est un tableau issu d’un projet mené par une équipe intégrant des analystes et des historiens de l’art pilotant une intelligence artificielle au sein de l’agence l’agence néerlandaise J. Walter Thompson.

Il m’a semblé intéressant de rapprocher The Next Rembrandt (à gauche) de l’Autoportrait au Chapeau (à droite) peint par Rembrandt alors âgé de 26 ans en 1632 car la composition et la palette sont similaires.

Notons sur le tableau de Rembrandt la collerette, en désuétude depuis la fin du XVI^ème siècle mais témoin du goût de Rembrandt pour les déguisements. La signature apposée sur de la peinture encore fraîche révèle une exécution rapide dont il était coutumier.

Demander à une intelligence artificielle de faire un tableau à la manière d’un peintre exige que le choix se porte sur un artiste à la production suffisamment étoffée pour satisfaire la boulimie de données de ladite intelligence artificielle.

Léonard de Vinci avec sa vingtaine d’œuvres ne faisait pas l’affaire. Rubens semble mieux convenir avec ses quelque deux mille tableaux mais la contribution de maître se limitait souvent à une mise en page initiale et à une touche finale, son atelier se chargeant du reste. Picasso, du haut de ses dix mille peintures issues de cent vingt mille créations semble tentant, mais son insatiable curiosité est source de tant de styles différents que la pauvre intelligence artificielle peinerait à les ingérer.

Dès lors se tourner vers Rembrandt semble une option intéressante : plus de sept cents œuvres parmi lesquels deux cents portraits. Près de la moitié sont des autoportraits, son miroir lui proposant un sujet d’étude toujours disponible. Le style de Rembrandt a certes évolué tout au long de sa vie suivant un schéma commun à beaucoup de maîtres : les créations de jeunesse sont bien policées, celles de la maturité s’épanouissant avec spontanéité, liberté et inventivité. Mais ce n’est pas un obstacle pour l’apprentissage de l’intelligence artificielle.

Les travaux conjoints des historiens de l’art et des data scientistes ont permis d’identifier des motifs récurrents dans les portraits et dans la technique, notamment le sfumato.

Le sfumato ? Deux écoles sont en concurrence pour réaliser un tableau : la mise en couleur se fait sur un dessin préalablement établi ou le dessin émerge des taches de couleur et de lumière. Le sfumato a été formalisé par Léonard de Vinci dans le cadre de cette deuxième façon. J’ai lu (mais où ?) qu’il cherchait à reproduire le flou que l’on peut voir par exemple dans l’ombre d’un mur. « La Dame à la Licorne » de Raphaël pour le dessin et « La Joconde » de Vinci pour les couleurs illustrent les deux tendances qui se sont poursuivies dans des querelles au cours des siècles : rubéniste et poussinistes, Ingres et Delacroix, Vinci et Michel Ange, Turner et Constable. Point de hiérarchie entre les écoles, elles ont toutes deux donné jour à des chefs d’œuvres.

Notons que l’œuvre gravée de Rembrandt atteste qu’il était un maître également dans le domaine du trait.

Tout ceci pour insister sur le fait que les travaux sont issus d’une solide coopération entre historiens de l’art et analystes de données.

Indéniablement The Next Rembrandt constitue une expérience riche en enseignements. Mais le style du maître peine à transparaître, même si je demeure convaincu que l’IA nous réserve de bonnes surprises dès qu’elle aura affuté ses pinceaux.

À la vue du tableau – uniquement sur écran, malheureusement – je me suis dis que ça ne collait pas. En cherchant pourquoi, j’ai identifié trois points qui me dérangent : le regard, la touche et la lumière. Un fin connaisseur de Rembrandt aurait probablement d’autres éléments pour étoffer le propos.

Le regard

Le romancier anglais Henry Fielding notait que dans les portraits de Rembrandt on voit le modèle réfléchir. Tout est dans le regard. Le remarquable portrait de Jan Six en est une excellente illustration.

Problème : rien de tel dans The Next Rembrandt. Il n’y a pas de regard, seulement deux yeux dissemblables mais juxtaposés. L’IA a représenté un œil, puis un deuxième. Ils ne semblent pas appartenir à la même personne.

Pire : l’œil droit est curieusement en pente avec l’extrémité gauche plus haute que l’extrémité droite. Difficile dans ces conditions d’avoir « l’air de réfléchir » !

Mes compétences en apprentissage profond sont insuffisantes pour oser suggérer une solution. Mais ne serait-il pas possible de définir un objet « regard » qui engloberait les deux yeux ? On pourrait peut-être ainsi gommer ce défaut.

La touche

Rembrandt travaillait très rapidement. Il appliquait d’épaisses couches de matière qu’il modelait et teintait. Couteaux, pinceaux, brosses voire doigts tout était bon pour être manié avec vivacité et précision. La peau y trouvait une texture pleine de vérité et les transitions entre volumes (sfumatos) une délicatesse naturelle.

Cette touche est absente du Next Rembrandt. Comparez les visages sur l’illustration introduisant l’article. À gauche, le visage du Next Rembrandt, lisse comme Vénus peine à exprimer la richesse que le peintre a su communiquer dans l’autoportrait sur la droite.

Peut-être l’utilisation de l’imprimante 3D est-elle en cause. Appliquer des couches successives se rapproche des glacis de Léonard de Vinci (en n’oubliant pas de prendre le temps de séchage entre chaque couche !) mais pas du traitement de la matière selon Rembrandt.

L’idéal pourrait être une imprimante qui soit capable de manier des outils pour mélanger des teintes et modeler des « tas » de peinture. Soyons clair : l’option n’est pas proposée mais ne me semble pas hors de portée technique.

La lumière

S’il est un élément structurant dans les portraits, c’est bien la lumière. L’orientation préférée des ateliers des peintres est le plein nord pour échapper aux mouvements du soleil et aux rayons trop violents qui transforment toute surface en aplat. Ajoutons que les artistes peuvent alors gérer eux-mêmes leur éclairage. Ce n’est bien entendu pas la seule manière de traiter la lumière : les impressionnistes par exemple travaillaient en extérieur et rendaient compte de la lumière en évoquant son scintillement voire son délitement par de petites touches juxtaposées.

La lumière dans The Next Rembrandt ne suit pas ces principes. Le visage est éclairé très directement. Il écrase les joues ne rendant pas compte des subtiles nuances que Rembrandt savait si bien exprimer. Les portraits photographiques ont exactement la même approche que les peintres avec une lumière maîtrisée grâce à des réflecteurs et des projecteurs. Le flash trop proche du sujet est à bannir.

L’éclairage est probablement l’élément qui marque le plus la distance entre le maître et la copie.

Peut-être pourrait-on demander à la machine de simuler un éclairage indirecte. Est-ce réalisable ? Est-ce que ce serait suffisant pour échapper à la sensation de surexposition ?

En bref

Nous voilà bien loin d’être en mesure de maîtriser le style de Rembrandt. Mais la technologie n’a pas dit son dernier mot et gageons que les évolutions de l’Intelligence Artificielle comme celles de l’impression 3D pourraient mener à terme à des œuvres « à la manière de ».

Pourra-t-on alors voir fleurir des faux ? Je pense que non car on sait maintenant analyser les constituants et les pigments pour avoir une idée précise de la date de réalisation. Juste après la dernière guerre, le peintre Han van Meegeren a dû prouver qu’il était un faussaire pour échapper à la peine de mort après avoir vendu un faux Vermeer Le Christ et la femme adultère à Hermann Göring. C’est pour montrer qu’il était capable de produire un faux qu’il a peint Jésus devant ses docteurs à la façon de Vermeer devant témoins. Une fois la supercherie avérée de nombreux collectionneurs et musées sont tombés de haut mais le plus désarçonné fut parait-il Göring lui-même. Des analyses ultérieures de la céruse utilisée pour le blanc ne laissent aucun doute sur la date de réalisation

Mais je suis confiant dans le fait que l’Intelligence Artificielle saura à terme nous proposer des toiles « à la manière de ».

Le portrait d’Edmond de Belamy

La toile a le privilège d’être la première œuvre réalisée par une intelligence artificielle à être vendue par Christie´s. C’était en 2018 et l’acquisition s’est conclu au niveau de … 432 500 dollars. Ah oui quand même. (Record battu par Sotheby’s avec « A.I. God » qui est un portrait d’Alan Turing à un million de dollars début novembre 2024).

Un collectif d’artistes français, Obvious, s’est lancé dans une expérience inédite : nourrir une intelligence artificielle avec des milliers de portraits exécutés depuis le Moyen-Âge pour en extraire un jeu de règles communes à tous les portraitistes. Puis, à partir de ces règles imaginer une famille, les Belamy. La philosophie est à l’opposé de celle qui prévaut pour le Next Rembrandt où la touche d’un seul peintre est à identifier. Il me semble qu’il aurait fallu éviter deux écueils.

Le premier est lié au mode de fonctionnement statistique de l’intelligence artificielle. Le problème est que les statistiques utilisent les moyennes et qu’il ne faut pas que le travail ainsi mené ne débouche sur une œuvre moyenne. La frontière est alors mince avec le médiocre.

Le second provient de la large période d’exploration. Grâce à elle, la moisson de données pour la toujours affamée intelligence artificielle est excellente mais très hétérogène.

Revenons-en au portrait d’Edmond de Belamy. J’aime beaucoup le titre mais je ne sais pas apprécier la toile, comme le formulait si bien une professionnelle de l’art face à des œuvres qu’elle n’aimait pas.

« Belamy » n’a pas été choisi au hasard. C’est inspiré de Ian Goodfellow, instigateur du très efficace modèle où deux IA sont mises en compétition (Generative Adversarial Networks).

Belamy évoque également Guy de Maupassant et l’image reflète la deuxième moitié du XIX^ème siècle. J’aime bien le titre.

Je suis très mitigé face au résultat.

La mise en page est désarçonnante. La tête bute sur le haut de la feuille et semble engoncée dans le corps. L’attention est attirée par le col de chemise particulièrement lumineux.

La touche est curieuse sous forme d’une trame extrêmement régulière, comme pourrait l’être l’empreinte d’un support. Le traitement vaporeux contribue à une vision onirique, qui n’est pas forcément inintéressante presqu’à la manière de Gerhard Richter. Quoi qu’il en soit, le mélange des genres me rend incapable de le rapprocher d’un mouvement de peinture existant (ce qui pourrait s’apparenter à un point positif !).

Les portraits des autres membres de la famille Belamy suivent le même modèle.

Je passe peut-être à côté de quelque chose, mais je crains que partir sur un mélange de tout ce qui existe ne puisse que déboucher sur quelque chose manquant d’originalité.

La peinture par l’humain

Quelques mots sur la création d’un tableau par un humain en s’appuyant sur le Déjeuner sur l’herbe d’Édouard Manet.

Tout comme l’Intelligence Artificielle, l’humain recueille beaucoup d’informations en se servant de l’histoire de l’Art. Mais alors que l’Intelligence Artificielle fait un calcul statistique sur toutes les données qu’elle a pu ingurgiter, l’humain ne sélectionne que quelques informations bien ciblées pour l’œuvre en cours que l’artiste s’appropriera en les modifiant selon son inspiration du moment.

Autre différence majeure : l’humain a une intention (message, émotion … ) quand il se met à sa toile mais le mécanisme qui permettrait à l’Intelligence Artificielle d’en avoir n’est pas identifié aujourd’hui.

Dans le Déjeuner sur l’herbe Manet a truffé (souvent avec humour voire en pastichant) sa toile de références avec la volonté d’exprimer sa vision de la peinture.

L’héritage des maîtres en guise d’apprentissage

La composition du tableau provient du Jugement de Pâris de Raphaël, le nu et la nature sont inspirés par la Venise du XVIème siècle, Manet se revendiquait avec un sourire de La partie carrée d’Antoine Watteau, les arbres doivent beaucoup à Velasquez. Autant d’éléments (et probablement bien d’autres que je ne sais détecter) puisés dans le patrimoine des chefs d’œuvres. Manet, en fin connaisseur des maîtres du passé, en extrait quelques uns bien choisis.

L’intention dans la peinture

Le message de Manet se situe dans le traitement de la toile. Il fait fi des règles en vigueur. Il affiche la volonté de rompre avec les trop rigides prescriptions de la peinture académique.

Les personnages sont comme découpés puis collés sur la toile sans souci d’intégration, tout comme la nature morte au panier en bas à gauche de la toile (probable influence des estampes japonaises particulièrement en vogue à l’époque ?). La jeune femme en arrière plan ne respecte pas les lois de la perspective. Bref, tout est fait pour choquer, au delà même de ce qui marqua le plus à l’époque : la provocation du modèle nu entouré d’hommes en costumes contemporains.

Pour Manet, peu importe ce qui est représenté. L’essentiel est la manière de disposer les pigments sur la toile. La représentation de l’objet importe plus que l’objet de la représentation. Son ami Stéphane Mallarmé l’exprime par « Peindre, non la chose, mais l’effet qu’elle produit ».

Cet état d’esprit fera école : les impressionnistes oseront rendre les vibrations de la lumière avec des petites touches, les abstraits construire des visages avec des cubes et les non figuratifs ne s’intéresser qu’à la composition.

Modifier la réalité pour afficher une intention est chose commune dans l’art. Michel Ange introduit deux lignes d’horizon pour distinguer celle du commun des mortels de celle la Sainte Famille dans le tableau du même nom, Ingres ajoute trois vertèbres pour raisons esthétiques à la Grande Odalisque, Degas omet les pieds de tables probablement car ils seraient de trop dans l’Absinthe.

La création artistique va bien au delà de la simple production mécanique d’une œuvre. À la source on trouve une intention (une envie, une impulsion, une inspiration, une émotion…). Est-ce à la portée de l’IAG ?

L’Intelligence Artificielle Générative peut-elle créer un tableau ?

Commençons par nous méfier des mots : « générative » nous semble proche de « créative ». Jetons un regard sous le capot de cette belle mécanique pour construire notre propre opinion.

De l’IA à l’IAG

Fondamentalement l’Intelligence Artificielle (non générative) s’appuie sur un nuage de données acquises lors d’une phase d’apprentissage, y discerne une tendance et propose une extrapolation. Le système est prédictif, chaque résultat est dans la lignée des données recueillies (régression linéaire par exemple) et est associé à une probabilité de réalisation.

L’Intelligence Artificielle Générative représente une avancée essentielle en travaillant non sur les données mais sur un réarrangement de ces données en éléments « fortement probables » de textes ou d’images, ce qui lui permet de proposer de nouveaux textes ou nouvelles images. Si les possibilités semblent infinies n’oublions pas qu’elles ne savent que réutiliser les données emmagasinées et restent bornées par un nombre de combinaisons fini. L’extrapolation génère maintenant des textes, des images des musiques, des dialogues extrêmement réalistes et inédits.

Les limites à la création déjà identifiées avec l’Intelligence Artificielle « classique » sont reconduites avec l’Intelligence Artificielle Générative : on ne sait que piocher dans ce qui a été engrangé lors de l’apprentissage.

Mécanismes pour l’IAG

Les IAG se fondent sur une analyse de la structure des données récoltées qui leur permet de générer de nouvelles données ressemblant aux données d’entrée.

Penchons-nous sur deux des mécanismes aujourd’hui bien en vogue pour faire de l’IAG. Ce sont les GPT (Generative Pre-trained Transformers) plutôt orientés sur les textes et les GAN (Generative Adversarial Networks) d’une efficacité incroyable pour les images. Ce ne sont que deux exemples et gageons que l’avenir nous réserve encore bien d’autres algorithmes encore plus surprenants.

L’architecture GPT a pour base des encodeurs qui regroupent des entrées ayant selon des critères communs. Les encodeurs sont chaînés, chaque encodeur ayant en entrée la sortie de l’encodeur précédant. Le résultat des combinaisons que chaque niveau est lui même combiné avec une nouvelle information. Un mécanisme permet de prendre en compte et de pondérer les informations les plus éloignées. Les décodeurs suivent le chemin inverse en s’intégrant un peu plus à chaque étape au contexte de génération. On est ainsi à même de proposer le mot qui serait le plus probable pour compléter une phrase. Ces couples « encodeurs/décodeurs » sont appelés des « transformeurs ».

Une deuxième approche est celle des GAN pour Generative Adversarial Network. Elle a déjà été évoquée plus haut. Une première intelligence artificielle propose une image à une deuxième qui traque les éléments trop artificiels. Les échanges entre les deux Intelligences Artificielles se poursuivent jusqu’à obtention d’une image satisfaisante. Le prix à payer est une consommation énergétique énorme mais le résultat est saisissant de réalisme. La méthode s’apparente à la recherche par force brute : on présente un résultat jusqu’à ce qu’il soit accepté sachant, chose importante, qu’à chaque cycle des imperfections sont éliminées.

IAG et création

L’Intelligence Artificielle Générative sait créer des œuvres, et qui plus est des œuvres inédites. (Notons que le Littré ne nous autorise pas à les qualifier d’ « originales » car elles devraient être « sans modèle », ce qui est littéralement contraire aux principes de l’apprentissage de l’IAG).

L’IAG sait apprendre un style et le reproduire. Ce n’est pas le cas aujourd’hui mais on peut tout à fait imaginer qu’un jour viendra où les experts pourraient se poser la question de leur attribution à un maître. Les limites ne proviennent pas du principe de l’IAG mais sont technologiques : algorithmes à peaufiner, imprimantes à adapter …

Mais l’IAG reste incapable d’innover, toute confinée qu’elle est dans le réservoir de données où elle a puisé son savoir. Elle ne sait pas transgresser les règles.

Sans sortir de son carcan, elle ne peut innover. Elle ne peut proposer un résultat original. Pas plus que l’Intelligence Artificielle n’est capable de faire des expériences de pensée comme Galilée sur la chute des corps dans le vide ou Einstein avec la courbure de l’espace-temps, l’Intelligence Artificielle Générative n’a la possibilité de faire du nouveau en peinture.

Les artistes ont en général pour socle une solide connaissance de leurs prédécesseurs mais ne les copient pas servilement. Il en est même (Niki de Saint Phalle me semble-t-il ?) qui rejettent délibérément l’idée de faire des études sur l’art pour se protéger de toute influence. Nous sommes au rebours de la démarche de l’apprentissage propre à l’IA et l’IAG.

Soyons concis pour résumer tout cela : l’Intelligence Artificielle Générative pourrait être capable à terme de faire des toiles inédites « à la manière de » mais ne peut en aucun cas créer un tableau original.

(Opinion personnelle : peut-on espérer mieux que du médiocre en faisant une moyenne, même sur des chefs-d’œuvre ?)