Blog

Travailler les données sans modèle préétabli

Posted by Jean-Pierre Malle on 29/01/19 07:15

Et si faire un modèle n'était qu'une tradition ?

Lorsque l'on veut produire une pièce dans une usine on la travaille jusqu'à ce qu'elle corresponde à ce pour quoi elle est destinée, c'est un modèle. Puis on réalise un moule à partir duquel des milliers de pièces semblables seront réalisée.

Il est facile de transposer le concept au traitement des données. Dans un premier temps on analyse des données finement puis on établit un modèle de traitement qui, à partir de ces données de référence va produire la conclusion attendue, c'est l'apprentissage ou l'entrainement du modèle. Puis le flot des données suivantes est confronté systématiquement au même modèle pour en tirer les mêmes conclusions.

Cette approche nous parait évidente simplement par le fait qu'elle est courante. Elle correspond aussi assez bien à l'esprit cartésien (hypothético-déductif) qui caractérise notre culture. C'est devenu une tradition : qui dit données dit modèle.

Mais tout modèle est une abstraction de situations de références, rencontrées ou imaginées.

  • S'il y a "abstraction", c'est que l'on supprime des informations. On produit alors une sorte de moyenne à partir de plusieurs situations. De fait on élimine les singularités des situations, on les oublie.
  • Pour établir un modèle il faut que l'on dispose de données de référence traitant l'intégralité des cas possibles. Si un cas à été oublié, le modèle ne pourra pas le traiter correctement lorsqu'il surviendra.
  • Bien entendu le modèle dépend des données et des conclusions attendues, un nombre conséquent de cas variés peut rendre le modèle compliqué à établir.
  • Enfin si des données sont imprécises, ambiguës ou inexistantes le modèle peut devenir inopérant même avec l'aide de Bayes et Markov.

Bref le modèle est souvent compliqué, réducteur, normalisateur et tôt ou tard s'avère incomplet ou inopérant. Et c'est là que le bât blesse. Mais peut-on s'en passer ?

Que fait l'homme en pareil cas ?

Si l'algorithme rencontrant une situation inédite ou incomplètement définie ne peut la traiter et s'en sort avec un "not found" ou "unknown", l'homme en situation ne peut pas se contenter d'attendre en croisant les bras. Si tel était le cas nous aurions disparu de la surface du globe il y a bien longtemps. Pour s'en sortir l'homme a créé un mécanisme moins rigoureux mais bien plus efficace : l'induction.

L'induction consiste, dans l'instantanéité d'une situation donnée, à rechercher dans sa mémoire des éléments d'une situation similaire déjà vécue pour les transposer à la situation courante.

Par exemple, pour traverser la rue, le déductivisme imposerait de mesurer les vitesses des véhicules, de les placer dans l’espace pour chaque instant qui va suivre avant de décider du bon moment pour traverser à l’aide d’une équation (un modèle). Dans ces circonstances, nombre d’entre nous resteraient plantés sur le trottoir une calculatrice à la main. Heureusement, notre cerveau appréhende la scène situationnelle de façon globale et la traite par induction. Pour ce faire, il fait appel à des situations similaires nous impliquant ou impliquant d'autres personnes que nous avons observées (d’autres traversées de rues, en tout temps, avec ou sans lumière, sol mouillé ou non…).

Nous ne disposons pas de modèle de traversée de route, mais d'une somme d'expériences nous permettant en un éclair de définir le bon moment compte tenu d'un nombre gigantesque de paramètres environnementaux, de condition physiques, d'attitude des conducteurs, etc…

Bien sûr parfois ça passe juste, mais ça marche quand même plutôt bien.

Faut-il abandonner les modèles ?

L’induction est un mécanisme bien plus utilisé par le cerveau que la déduction. En effet bien que cette dernière soit jugée plus propre, plus scientifique, elle n’occupe que quelques % du temps de traitement de notre cerveau.

Fréquemment, lorsque l’on ne connait pas bien un domaine, de nombreuses confusions peuvent apparaître. Certains verront dans l’induction une forme de statistique et confondront la recherche de singularité avec une segmentation plus fine d’éléments moyens obtenus statistiquement. D’autres parleront même d’intuition pour désigner l’induction.

Dans tous ces cas, la confusion est issue d’une volonté de comparer les différents principes sur des domaines identiques. En fait il y a un domaine où la déduction excelle et un domaine où l’induction est de mise. Ces deux approches sont duales l’une de l’autre au sens mathématique du terme. Chercher à faire de l’induction là où la déduction est efficace serait ridicule, et réciproquement. Il faut maitriser les deux approches et les appliquer chacune sur leur domaine de prédilection, comme le fait l'homme depuis des centaines de milliers d'années.

Existe-t-il des contraintes à l'induction ?

L'induction est un mécanisme cognitif bien plus rapide que la déduction, capable de traiter de situations inédites, qui repose sur un processus primordial : l'analogie. En effet il faut que dans un temps très bref le cerveau retrouve dans sa masse d'expérience la situation analogue qui va bien. L'établissement des liens quantitatifs et qualitatifs impose un prétraitement continu de l'information, une restructuration constante des données. Lorsque l'on constitue un modèle, il est possible de se nourrir en une fois d'un historique de plusieurs années de données, sans modèle il faut restructurer les données et modifier les liens en permanence, c'est une charge de calcul par anticipation.

L’induction dégage au fil de l’eau des singularités, elle élargit leur assiette à chaque occasion et mesure l’efficacité de leur application. A ce titre cela relève de l’épistémologie constructiviste. Il n’y a pas d’unicité du raisonnement inductif. Le raisonnement dépend des inductions précédentes, des singularités détectées, il n’est pas répétable. Une machine inductive "apprend" au fil l'eau, de fait l'induction d'aujourd'hui ne sera pas la même que celle d'hier ou de celle de demain, pour des circonstances identiques, puisqu'elle aura bénéficié d'une expérience supplémentaire.

Notre cerveau est capable d’intégrer un nombre colossal de paramètres en une fraction de seconde et de projeter le fruit de ses inductions. Ces paramètres sont souvent incomplets et incohérents, de plus le cerveau ne les traite que partiellement, en se concentrant sur l’essentiel. En contrepartie de cette célérité il y aura aussi parfois des incidents.

Quand choisir l'induction ?

Malheureusement, peu d'ingénieurs connaissent réellement les principes de l’induction, savent construire une machine inductive, décider quand recourir au modèle déductif et quand recourir à l'induction. L’éducation s’est polarisée autour des principes hypothético-déductifs érigés en quelle que sorte en « pensée unique », de fait l'induction est relativement peu enseignée contrairement à la déduction. Et c'est bien connu : quand on a un marteau, tous les problèmes sont en forme de clous … Par conséquent, beaucoup ne se posent même pas la question.

L'induction se prête bien lorsqu'il s'agit de faire des recommandations et délivrer des conseils personnalisés. C'est pourquoi elle est fort utilisée par les commerçants et les consultants. Dans bien des cas, le consultant ou le commerçant s'exprime en faisant référence à un cas analogue : "j'ai rencontré cette problématique dans la situation suivante … nous avons alors fait comme ceci ….", c'est une induction.

Le système de recommandation de produits pour site e-commerce que nous avons construit chez Netwave, s'avère bien plus efficace en agissant par induction avec 100.000 situations de référence que ses concurrents déductifs faisant appel à une poignée de règles. Il est capable de s'adapter en permanence et prendre en compte les singularités de chaque visiteur, de chaque situation qui se présente, sans les aprioris d'un modèle préétabli.

 

Jean Pierre Malle
Fondateur m8, Scientific Advisor Netwave

Restez informé avec le récap hebdo

Articles récents