Etat de l’art
Il faut 1.000.000 de photos de chats pour qu’un réseau de neurones reconnaisse un chat avec un taux d’erreur de 5 %... Il n’en faut que 2 à un enfant pour obtenir le même résultat. Avec une précision plus grande. Il faut 450 kW à une machine de 1 500 processeurs pour une partie d’échecs ou de go, il ne faut que 20 W à un homme pour obtenir le même résultat.
Ces exemples sont tirés du livre « L’intelligence artificielle n’existe pas » et des conférences du Dr Luc Julia, vice président scientifique de Samsung et père de la technologie Siri d’Apple.
L’expert de renommée internationale explique que les techniques actuelles du machine learning et du deep learning construites sur des principes statistiques ne permettent pas d’approcher les mécanismes cognitifs humains et que si l’on veut comprendre et prédire les actions des hommes il faut inventer d’autres techniques.
C’est le travail que nous avons entamé chez Netwave, autour de notre IA Inductive Temps réel (technologie brevetée UE, USA, Chine, Russie, Corée, Japon...etc).
Biais
Derrière une apparence de propreté, le machine learning et le deep learning véhiculent de nombreux biais. Les algorithmes sont construits par des humains et ne couvrent pas, loin de là, toutes les situations. Les données servant à l’apprentissage sont étiquetées par des humains, elles sont sélectionnées par des humains, elles portent en elles-même des biais culturels, contextuels, etc… De fait leur qualité n’est pas assurée. Dès lors elles peuvent être comparées à d’autres techniques porteuses de biais également, et jusqu’ici réfutées par les datascientists tels que l’induction, le stéréotypage, ...etc.
Vérité et efficacité
Si l’on observe l’homme d’aujourd’hui, nous descendons de ceux qui ont survécu. Ceux qui nous ont précédé et qui n’avaient pas un « logiciel » suffisamment efficace n’ont pas survécu et ne se sont pas reproduits. Le « bon logiciel » privilégie l’efficacité à la vérité. Une IA efficace sera toujours meilleure qu’une IA qui recherche une pseudo-vérité comme le fait le deep learning, par exemple.
Induction
Parmi les mécanismes efficaces développés par l’homme, il y a l’induction. Elle fonctionne en deux phases.
Une phase « analogie » pour rapprocher le contexte actuel d’un contexte déjà rencontré.
Et une phase « adaptation » pour projeter sur le contexte actuel la stratégie mise en œuvre ayant permis de “survivre” dans le contexte analogue.
La phase « analogie » a été particulièrement étudiée par Douglas Hofstadter et Emmanuel Sander dans leur ouvrage « L’analogie, cœur de la pensée ».
Le mécanisme inductif est décrit depuis l’antiquité et comparé au mécanisme déductif depuis Aristote en passant par David Hume pour ne citer qu’eux.
Malgré le fait que nous utilisions très fréquemment l’expression « j’en déduis que », nous mettons en réalité en œuvre la technique inductive en faisant référence à une expérience passée efficace. Mais en évoquant la déduction nous faisons croire à notre interlocuteur que nous énonçons la vérité. C’est l'une des bases du marketing ou de la politique.
Bien sûr, on peut critiquer l’induction, elle n’en reste pas moins la forme la plus efficace de prise de décision en temps réel et celle que nous pratiquons abondamment pour « survivre ».
IA inductive
Puisqu’elle est efficace, l’idée de créer une IA la mettant en œuvre m’est venue naturellement. D’abord seul. Puis au sein de Netwave en ce qui concerne ses applications Temps Réel.
Cette IA est pertinente dans toutes les situations où l’homme pratique naturellement l’induction, et en premier lieu le marketing, le commerce, le conseil, la politique.
Pour ce faire il faut tout d’abord bien identifier chaque contexte avec suffisamment de critères.
Il faut aussi identifier la stratégie mise en œuvre et établir un lien entre le contexte et la stratégie.
Il faut enfin obtenir un retour sur l’efficacité de ce couple.
Ainsi nous avons constitué une machine qui enregistre les expériences au fil de l’eau. L’apprentissage se fait donc en continu contrairement au machine learning et au deep learning. Celles-ci ont besoin d’un stock très important d’exemples - c’est à dire une grande volumétrie de données - pour constituer à l’instant T un modèle statistique produisant moins de 5 % de faux positifs. Leur modèle n’évolue plus par la suite jusqu’à ce que l’on relance une lourde phase d’apprentissage avec de nouveaux grands volumes de données nécessaires à la modélisation statistique. Depuis quelques années une technique de « renforcement » constitue une « rustine » sur le machine learning faisant évoluer la catégorisation en fonction des résultats. Cela améliore quelque peu le système mais reste très loin de l'efficacité de l’apprentissage en continu notamment quand il s’agit d’e-marketing ou d’e-commerce.
Bien évidemment, l’homme dispose de mécanismes liés à l’actualité de ses expériences, leur rareté, leur dangerosité etc… Tous ces mécanismes sont intégrés lors de l’analogie. Ils sont donc reproduits dans notre IA inductive. Il s’agit alors de concevoir des heuristiques pour valoriser les expériences en regard du contexte courant.
Analogie et différences
Contrairement au machine learning et deep learning, l’analogie repose sur la recherche des différences entre le contexte courant et le contexte passé. Car si l’on ne s’intéresse qu’aux similarités, comme le font le machine learning et le deep learning, un tout petit détail peut causer notre perte.
Par exemple, si je suis dans la jungle dans un contexte où 99,9 % des conditions sont les mêmes qu’hier mais qu’un petit détail comme le rugissement d’un lion survient, j’aurai plutôt intérêt à me concentrer sur les différenciants que sur les similarités... On calculera donc une distance et non une proximité entre les deux contextes, en valorisant fortement les signaux faibles et non les similarités.
Afin de privilégier l’efficacité il sera nécessaire de disposer de nombreux capteurs de signaux faibles, que nous appelons chez Netwave des trackers. Les signaux faibles sont par définition très rares, leur simultanéité l’est encore plus. L’analogie portera alors sur le ou exceptionnellement les 2 ou 3 signaux faibles présents. Il serait ridicule de penser former des combinaisons des signaux faibles, lesquelles n'apparaîtront jamais.
Une mauvaise analogie peut être due à :
- Un nombre de critères insuffisants pour décrire la situation, ce qui va produire des amalgames et occulter les différenciants,
- Un nombre de trackers insuffisants (il n’est pas rare d’identifier plusieurs centaines de signaux faibles modifiant significativement la stratégie à déployer),
- Une confusion entre signaux faibles et signaux forts (un signal qui concerne un trop grand nombre de cas ne peut être un signal faible),
- La volonté de se référer à plusieurs situations passées et d’en faire la «moyenne» ce qui annihilerait les signaux faibles.
Adaptation
La stratégie déroulée lors de la situation passée doit être adaptée à la situation nouvelle. L’homme dispose d’un mécanisme créatif dont la machine ne dispose pas. Ce principe est bien décrit par Emmanuel Sander dans son livre « L’analogie, du naïf au créatif ».
Dans le cas d’une IA inductive, les stratégies possibles doivent être prédéfinies, disposer de variables d’ajustement et de lois d’ajustement permettant à partir de la différence des contextes de définir les axes sur lesquels agir. Ici également, les différenciants sont bien plus importants que les similarités.
Les équipes Netwave créent et enrichissent en permanence des bibliothèques de trackers et de stratégies pour détecter et traiter toujours plus de situations pour nos clients.
Résultats
En matière de personnalisation temps réel, par exemple, l’IA inductive montre sa supériorité lors de chaque AB test réalisé par Netwave :
- car elle n’a pas besoin d’un grand volume de données pour bâtir un modèle opérationnel : une ou deux occurrences lui suffisent pour identifier une nouvelle situation et produire une nouvelle décision,
- car elle identifie des situations vécues par les visiteurs avec une granularité très importante là ou le deep learning ne peut que gérer des associations conjoncturelles sur une base de segmentation beaucoup plus sommaire. Nous identifions 85 000 situations différentes tous les 1 millions de visites sur un site web, dont 16 000 sont reproductibles (plus d'une occurrence).
- car elle ne s'appuie pas sur ce qui était en moyenne plus probable par le passé, mais sur ce qui va faire la différence aujourd'hui.
Formation des datascientists
Les techniques de machine learning et deep learning sont des techniques intégratives, elles recherchent les points communs, elles font des moyennes, elles mettent en avant les signaux forts et tuent les signaux faibles.
Les IA inductives se polarisent sur les signaux faibles, les différenciants, elles sont réactives et plus proches des comportements que l’homme adopte en situation.
Il ne faut pas opposer ces techniques, il existe des cas ou l’une ou l’autre sera préférable et des cas ou les deux seront complémentaires.
La formation des datascientists est axée aujourd’hui exclusivement sur les techniques intégratives de machine learning et deep learning, il leur manque la dimension différenciative.
Mais heureusement de plus en plus de datascientists sont suffisamment ouverts pour venir sur notre terrain et étudier toutes les possibilités nouvelles que ces techniques inductives apportent.
Ils sont les bienvenus chez Netwave.
Jean Pierre MALLE
Co founder et Advisor Netwave