Blog

Travailler les données sans modèles préétablis

Posted by Jean-Pierre Malle on 19/12/12 10:01

 

Chris Anderson, ex-rédacteur en chef de la revue américaine Wired, maintenant créateur d’entreprise dédié à la robotique est l’un des premiers à avoir écrit : « Nous voici entré dans l'ère des Big Data. C’est un déluge de données qui pose des questions profondes sur leur collecte, leur interprétation, leur analyse... ou la connaissance sera produite d’une façon inductive, à partir des corrélations extraites de grandes masses de données. » Ce que rappelle Henri Verdier dans l’article Paris Tech Review « Les big Data dans tous leurs états » du 11 novembre 2012.

 

Depuis une petite dizaine d’années, les travaux sur les algorithmes inductifs se sont multipliés dans les universités. Chez Netwave nous en avons fait notre spécialité et notre axe de travail principal dans le traitement de données, développant sur cette base notre technologie exclusive d’analyse situationnelle temps réel.

 

La forte croissance des réseaux sociaux a renforcé la demande pour ces algorithmes. Le Big Data en sera dans la continuité.

 

L’induction, contrairement à la déduction, est un mécanisme utilisé par le cerveau presque à chaque instant. En effet, bien que la déduction soit jugée plus propre, plus scientifique par certains (selon l’épistémologie institutionnelle positiviste[1]), elle n’occupe que quelques pourcent du temps de traitement de notre cerveau.

 

Par exemple, pour traverser la rue, le déductivisme impose de mesurer les vitesses des véhicules, de les placer dans l’espace pour chaque instant qui va suivre avant de décider du bon moment pour traverser à l’aide d’une équation. Dans ces circonstances, nombre d’entre nous resteraient « plantés » sur le trottoir une calculatrice à la main. Heureusement, notre cerveau appréhende la scène situationnelle de façon globale et la traite par induction. Pour ce faire, il généralise des principes observés lors de situations similaires nous impliquant ou impliquant les autres (d’autres traversées de rues, en tous temps, avec ou sans lumière, sol mouillé ou non...). Notre cerveau est capable d’intégrer un nombre colossal de paramètres en une fraction de seconde et de projeter le fruit de ses inductions. Ces paramètres sont pourtant incomplets et parfois incohérents, de plus il ne les traitera que partiellement lui aussi, en se concentrant sur l’essentiel. En contrepartie de cette célérité il y aura aussi parfois des accidents

 

Aujourd’hui, peu de personnes connaissent réellement les principes d’induction ou d’abduction. L’éducation s’est polarisée autour des principes hypothético-déductifs érigés en quelle que sorte en « pensée unique ». Pourtant un enfant, avant l’âge de 7 ans, fonctionne dans un mode inductif et ce n’est qu’à cet âge qu’il découvre la logique déductive et le raisonnement démontré.

 

L’induction nous permet de généraliser un phénomène observé, même s’il ne l’est qu’une seule fois. Cette logique échappe à l’entendement de nombre de scientifiques adeptes de l’épistémologie institutionnelle positiviste.

 

Fréquemment, lorsque l’on ne connait pas bien un domaine, de nombreuses confusions peuvent apparaitre. Certains verront dans l’induction une forme de statistique et confondront la recherche de singularité avec une segmentation plus fine d’éléments moyens obtenus statistiquement. D’autres parleront même d’intuition pour désigner l’induction.

 

Dans tous ces cas, la confusion est issue d’une volonté de comparer les différents principes sur des domaines identiques. En fait il y a un domaine ou la déduction excelle et un domaine ou l’induction est de mise. Ces deux approches sont duales l’une de l’autre au sens mathématique du terme. Chercher à faire de l’induction la ou la déduction est efficace serait voué à un échec certain.

 

Par exemple, l’induction est une technique continue qui nécessite du temps. Contrairement à la déduction, la statistique ou la probabilité qui peuvent se nourrir en une fois de plusieurs années de données pour en établir un résultat répétable, l’induction va dégager au fil de l’eau des singularités, en élargir leur assiette et mesurer l’efficacité de leur application. A ce titre cela relève de l’épistémologie constructiviste. Il n’y a pas d’unicité du raisonnement inductif. Le raisonnement dépend des inductions précédentes, des singularités détectées, il n’est pas répétable. Ceci est également contraire aux principes cartésiens. Tant pis…

 

Jean Pierre MALLE, Directeur Scientifique Netwave

 

 



[1] L’épistémologie positiviste repose sur une réalité absolue, démontrée, partagée. L’épistémologie constructiviste repose sur une réalité que chacun construit et qui lui sert de référence.

Topics: Big Data