Préambule :
Cet article est motivé par un exposé du Professeur Zyed ZALILA dans un dîner débat organisé par Forum ATENA le 20 octobre 2021. Ses propos m’ont enthousiasmé, d’autres contacts ont fait suite, ils m’ont convaincu de l’originalité de ses travaux.
ALBERTO MAGNELLI 1934 – MUSÉE DE GRENOBLE-J.L. LACROIX – Illustration pour le livre “La fin des certitudes” d’Ilya PRIGOGINE – Édition Odile Jacob
Je m’efforce d’en restituer l’essence car ils sont en rupture avec les analyses actuelles sur l’IA largement assimilée au « Deep Learning », technologie nouvelle, ce qui est, à mon avis très insuffisant. Le texte ci-après est largement inspiré d’un article qu’il a publié dans le cadre d’un Congrès de la SIA (Société des Ingénieurs de l’Automobile) sur les algorithmes des « voitures autonomes » sujet fort « à la mode ».
Des définitions
Je ne me lance pas dans une analyse sémantique (ou philosophique) pour débattre de la signification profonde du mot « intelligence » et de savoir si les nouveaux « algorithmes » que les progrès de l’informatique, qu’il s’agisse de la puissance de calcul et de stockage devenus considérables, ou des méthodes de calcul pouvant les mettre en œuvre sont désormais essentiels à notre devenir.
Nous attirons seulement l’attention, selon des propos d’Etienne Klein dans une émission de France Culture, qu’il y a une différence entre « intelligence » en anglais, dont le sens est proche d’exploitation des informations comme dans « Intelligence Service », tandis qu’en français le concept d’ « intelligence » ajoute souvent la capacité d’induction, souvent l’intuition qui fait imaginer une relation, un modèle souvent plus abstrait, une « loi » sous-jacente qui régirait les faits.
Pour Etienne Klein, l’énoncé par Galilée de la « loi de la chute des corps dans le vide » qui n’est pas directement visible dans les expériences, la plume et le boulet de canon ne « tombent » pas de la même façon, en est le parangon.
De fait, l’IA est devenue la coqueluche des médias ; elle est un chapitre de plans d’investissement colossaux où la France et même l’Europe seraient en retard sur les USA et même la Chine qui depuis 2017 investit plus qu’eux. Celle-ci en a fait, en plus de son objectif de contrôle pointilleux de sa population, un axe majeur de sa stratégie de puissance mondiale dans ses plans à long terme, comme, dans un autre domaine et pas le seul, les nouvelles routes de la soie.
Quelques repères historiques
Le mathématicien Alan Turing, célèbre désormais pour avoir développé l’automate (la « bombe ») qui a permis de casser le code de l’Enigma utilisée par les armées allemandes pour chiffrer ses messages, imagine dès 1936 une machine programmable capable de réaliser rapidement toutes sortes de calculs. Turing peut ainsi être considéré comme le père de l’informatique, (avant von Neumann) et même de l’IA car en 1950, il imagine un test pour qualifier une machine d’« intelligente ».
En 1954 Minsky, spécialiste de sciences cognitives, invente le premier simulateur de réseau neuronal apprenant. En août 1956, il organise avec McCarthy mathématicien, Shannon père de la théorie de l’information et Rochester directeur scientifique d’IBM, une conférence au Dartmouth College sur l’IA dont l’objectif serait de créer un « cerveau artificiel ».
Déjà deux branches émergent :
- avec McCarthy, l’IA Cognitiviste ou Symbolique se fonde sur sa capacité de l’homme à « raisonner » en manipulent des symboles par application de règles formelles tandis que
- Minsky et Rosenblatt, soutiennent que l’intelligence perceptive inconsciente de l’Homme vient de la structure neuronale de son cerveau et que la reconnaissance de formes devait intégrer un modèle artificiel du cerveau. Cette branche biomimétique reçoit le nom d’IA Connexionniste.
Toutes deux ont eu des développements avec des obstacles différents à surmonter : la définition des règles de l’expert métier pour l’une, la puissance des machines pour l’autre.
IA Symbolique et ses limites
En s’appuyant sur le postulat de la logique et des capacités cognitives l’Homme raisonnant grâce à l’enchainement de règles de décision, les chercheurs en IA Symbolique développent des systèmes artificiels prenant des décisions par manipulation de symboles :
à partir de règles « Si… Alors » supposées vraies,
un moteur d’inférence permet, pour une situation particulière définie par des faits constatés, de déduire, par application successive des règles adaptées à chaque « pas » de calcul définissant une « nouvelle situation » jusqu’à une décision. Cela passe par la modélisation des connaissances explicites d’un ou plusieurs experts-métier. Les applications ont acquis le nom de « Systèmes Experts ».
Un premier système expert DENDRAL en 1965 permettait d’identifier les constituants chimiques d’un matériau à partir de spectrométrie de masse et de résonance magnétique nucléaire ; dans le domaine de la santé MYCIN, fût développé en 1972 à l’Université de Stanford pour l’aide au diagnostic et recommander les traitements adéquats. Il comportait environ 600 règles et, malgré ses qualités des limites sont vite apparues pour une bonne part liées aux bases de la logique définie par Aristote qui postule deux états mutuellement exclusifs, le « Vrai » et le « Faux » avec l’impossibilité d’être à la fois « Vrai » et « Faux » (Principe de non-contradiction), et impossibilité d’un troisième état (Principe du « tiers-exclu »). Dans ce modèle, « Peut-être » n’existe pas, les « jugements » sont « brutaux » un peu comme un thermostat qui déclenche le chauffage.
Pour contourner cette limite des coefficients de vraisemblance ont été introduits mais avec une très grande difficulté pour définir ces coefficients et ce d’autant plus si le nombre de règles interdépendantes est grand.
L’autre difficulté, majeure, est de faire exprimer le savoir-faire de l’expert. Ce sera un véritable métier que d’ « accoucher » l’expert de son savoir et l’exprimer sous forme de règles acceptables par l’application.
Ici deux obstacles à franchir :
- L’expert dépositaire d’un savoir-faire précieux sera-t-il disposé à le transmettre à un système pouvant le remplacer ? Son avenir sera-t-il compromis ?
- Les règles de décision ne sont pas toujours formulables : face à une situation l’expert peut prendre une décision « intuitivement » sans même pouvoir « garantir » qu’elle est toujours la bonne. Dans des domaines complexes (beaucoup de paramètres interagissant), il est souvent déjà fort utile de prendre une bonne décision dans de nombreux cas, en évitant les très mauvaises !
Les effets conjugués peuvent être très difficiles à distinguer, les modèles de régression multiples et d’analyse de données telles que proposées par le Professeur Benzécri dans les années 70 sont insuffisantes, les plans d’expérience de Taguchi aident pour l’identification des variables significatives mais la confusion entre coefficient de corrélation et relation « causale », le « Graal » est commune.
Il est désormais acquis que les « systèmes complexes » échappent à la démarche préconisée par Descartes de décomposition du problème en problèmes plus simples car le tout est alors plus que la somme des parties en raison des propriétés émergeantes. Ce qui fait la différence entre un médecin traitant et un médecin légiste !
Ces difficultés ont, après un réel enthousiasme et quelques grands succès, donné lieu à des échecs tout aussi retentissants dans les années 90 ! Pour une bonne part ils étaient liés à l’impossibilité du modèle à représenter l’incertitude sur les règles, à l’inefficience des algorithmes d’induction et aux capacités des ordinateurs de l’époque de l’époque pour aider à découvrir automatiquement les règles décisionnelles appliquées, y compris « intuitives » afin de contourner la difficulté à faire « accoucher » ces règles par les experts. Pour peu qu’elles soient évolutives du fait d’un processus au comportement changeant c’était mission impossible, ce fût l’hiver de l’IA !
C’est là qu’une logique multivaluée, « floue », et des algorithmes d’induction originaux redistribuent les cartes.
Réseaux de neurones
L’IA Connexionniste a très tôt proposé un réseau artificiel de neurones, elle a été utilisée principalement pour la classification et la « perception » artificielle (vision automatique, reconnaissance automatique de la parole et de l’écriture).
Un réseau de neurones est un graphe composé de nœuds −les « neurones »− connectés à d’autres nœuds par des liaisons pondérées les « synapses ». Les neurones amont sont excités par des signaux pondérés grâce aux coefficients synaptiques, ils transmettent le signal résultant aux neurones en aval.
Le mécanisme consiste à renforcer les connexions lorsque le réseau produit une « bonne réponse » et de les affaiblir lorsque la réponse est « mauvaise ».
Cette méthode dite de l’« apprentissage supervisé » suppose l’existence d’une base de données présentant les cas « de référence » et les décisions à prendre pour chacune des situations.
La première version de réseaux neuronaux formels a été développée dès 1949. En 1957, Rosenblatt propose son Perceptron neuronal ; sans couche caché il est limité à des modèles de reconnaissance linéaires. Il sera étendu en 1965 par le premier Perceptron à plusieurs couches cachées autorisant la modélisation non-linéaire. Aujourd’hui, la dénomination « Deep Learning », est plus à la mode, elle développe exactement le même modèle proposé voici plus de 50 ans mais avec des puissances de calcul et des nombres de variables sans commune mesure : on parle couramment de millions de paramètres coefficients à « ajuster ». Ce volume de données et de calculs contient en lui même ses faiblesses ; l’approche connexionniste a trois inconvénients originels majeurs :
- Après ajustement le modèle propose des « décisions » mais, comme elles ne reposent pas sur un ensemble de « connaissances » connues à l’avance, elles ne peuvent – en l’état des technologies- être expliquées : il est impossible de suivre un « raisonnement ». Un tel réseau de neurones se comporte comme une boîte noire qu’aucun régulateur ne pourra auditer. On peut difficilement envisager de l’utiliser pour des décisions critiques mettant des vies humaines en jeu.
- Le modèle demande un très grand volume de données pour s’ajuster, la disponibilité, le coût et la pertinence des données peuvent poser des difficultés. Des biais peuvent entacher les échantillons de données et donc les « modèles » de décision lors de l’apprentissage.
Des échecs de l’approche « neuronale » commencent à être rapportés, je pense qu’ils vont se multiplier. - La stabilité des paramètres optimisés sur un « nuage de points » auxquels les données sont associées ne garantit en rien que les réponses « extrapolées » pour des valeurs éloignées de l’échantillon d’ajustement soient pertinentes (même des « interpolations » pour certains cas de discontinuités de la « fonction » sous-jacente au sens large par exemple chaotique).
Quand il s’agit de confier à l’automatisme la responsabilité de « conduire » une voiture sur route ouverte, c’est pour le moins délicat …
Le mariage de l’IA Connexionniste et de l’IA Symbolique,
ou le meilleur des deux mondes l’IA Symbolique Augmentée
C’est ici que mon enthousiasme s’explique : j’ai toujours gardé en mémoire la phrase prononcée par notre professeur d’automatisme quand il nous a accueillis dans son cours au milieu des années 60. Les logiques de commande étaient alors réalisées par des relais, l’électronique naissante.
« Un relais a 3 positions ON / OFF et « entre les 2 », c’est « entre les 2 » que se cachent 90% des problèmes ! » C’est pourquoi j’ai toujours eu un peu de mal avec la logique binaire et suis partisan d’une logique au moins ternaire, plutôt multivaluée.
Au début des années 60, l’automaticien américano-azéri Zadeh exploite la logique multivaluée proposée par Lukasiewicz en 1920 pour lever les paradoxes de la physique quantique ; au passage il la rebaptise d’un nouveau nom : « Fuzzy Logic » ou Logique « Floue ». Zadeh la met en œuvre pour piloter des processus complexes.
Comme dans les logiques asiatiques une infinité de valeurs de vraisemblances peuvent exister entre « vrai » et « faux ». La logique « floue » permet dès lors d’exprimer « naturellement » l’imprécision, l’incertitude et la subjectivité avec lesquelles l’expert humain percevait le monde réel pour prendre des décisions nuancées.
C’est cette logique floue qui a séduit Zyed ZALILA 1989, il en a fait le sujet de sa thèse de Doctorat [Zalila 1993]. Sa théorie des relations floues d’ordre N (RF-N) développe une branche complète des mathématiques dite « du flou ». Elle est cohérence et permet notamment de préciser les conditions de stabilité des modèles de décision et de présenter des règles intelligibles par l’homme, vérifiables et donc potentiellement certifiables.
On notera que la Communauté Européenne prépare des règlementations pour juguler les excès dans ce domaine prometteur et potentiellement dangereux.
Dès les années 90 il a coopéré avec Renault pour les premiers systèmes de conduite (ADAS) sur Renault 25. Il a inventé en 2000, en coopération avec un autre chercheur d’Intelliech, le premier algorithme (breveté) de parking « en créneau » opérationnel en situation réelle.
Il a depuis développé plusieurs logiciels pour aider à la mise au point de ces règles « floues » décrivant les comportements des Processus/Phénomènes Complexes en isolant les variables potentiellement prédictives.
Le robot d’extraction « Xtractis » peut, à partir de données beaucoup plus réduites, découvrir des règles « juste nécessaires », beaucoup plus compactes et rapides à exécuter. Cette approche est considérablement plus efficiente que le « Deep Learning » dont on commence à critiquer la consommation de ressources, dont énergie ; astronomique. Plusieurs stratégies d’exploration peuvent exploiter un même jeu de données, donnant des familles de règles qu’il est possible de recombiner pour améliorer le modèle, le rendre plus précis ou plus stable, résiliant aux conditions variées des sollicitations.
Des domaines d’application
Les domaines d’application sont particulièrement nombreux, de la définition de formulations de produits (déjà des blockbusters), le paramétrage optimal de processus de fabrication, anticiper le futur état de défaillance d’une machine (maintenance prédictive) ou bien la qualité future de produits (qualité prédictive).
En Finance/Assurance, aider à prédire le risque de défaillance pour un crédit ou une assurance, définir le « juste prix » d’une transaction immobilière, améliorer la robustesse des anticipations des cours d’actifs mobiliers.
Dans le secteur de la Défense et de la Sécurité, les applications de diagnostic, de surveillance, de détection de situations dangereuses ou malveillantes. À terme, ses modèles prédictifs pourront être embarqués pour rendre les véhicules (terrestres, aériens, navals, spatiaux) ou les robots soldats plus autonomes sur les terrains d’opération.
La suite
Le chercheur est très attaché à faire « profiter » la France et l’Europe de ses travaux. Sollicité par plusieurs pays étrangers (devinez lesquels …) j’espère que nos instances « dirigeantes » et les services qui doivent les aider à détecter les « pépites » sauront s’intéresser à ses travaux et faire fructifier ces technologies de rupture.
Les budgets prévus pour l’IA en France et en Europe (en milliards d’Euros) ne devraient pas, je pense, poser de problème de financement, juste, comme trop souvent, un manque de volonté ou un dénigrement de ce qui ne vient pas de Californie.
Aussi peut-être faudra-t-il trouver un nom plus attirant et plus « percutant » que le terme “flou” .
En effet ce mot a pris, en France, une connotation négative depuis qu’il a été utilisé dans une campagne politique ( “Quand il y a du flou, il y a un loup ! disait ma grand-mère “).
Comme un mauvais choix de nom de marque, ce mot peut projeter un effet néfaste sur l’image de cette technologie. Comme de plus elle conteste la soi-disant supériorité de la Californie qui imprègne nos “élites” il me semble qu’il faut commencer à taper fort sur l’obscurantisme numérique que nous constatons chaque jour !
En développant l’idée que tous les modèles sont partiels, j’avais pensé, en reprenant la formule de Georges Box “Essentially, all models are wrong, but some are useful“ à IA approximative (ou de l’approximation). En mécanique on parle bien de tolérances dimensionnelles (et de qualité de surface).
Mais en suivant deux prix Nobel, les mots qui me viennent à l’esprit, il doit y en avoir d’autres,
IA relative (ou de la relativité) en référence aux travaux d’Albert Einstein,
IA de l’incertitude pour Ilya Prigogine. Pour lui je relève cette citation dans l’introduction de son livre « La fin des certitudes » (ed. Odile Jacob janvier 1996)
« Depuis Boltzmann, la flèche du temps a donc été reléguée dans le domaine de la phénoménologie. Ce seraient nous, humains observateurs limités, qui serions responsables de la différence entre passé et futur. … au cours des dernières décennies une nouvelle science est née, la physique des processus de non-équilibre. »
Zyed Zalila propose une approche de l’IA plus globale inspirée des trois modes de fonctionnement du cerveau IA Inductive, Déductive et même Abductive .Il introduit ainsi le concept d’Exocerveau : un levier cognitif permettant d’augmenter l’intelligence humaine dans la modélisation de processus et phénomènes complexes
Et si Zyed ZALILA ouvrait de telles perspectives « disruptives » ? A nous de l’aider à être reconnu et soutenu !
Laisser un commentaire