La demande de data scientist et de data analysts ne cesse de se développer dans quasiment toutes les économies. L’offre s’adapte progressivement grâce à des formations techniques transverses de haut niveau et plutôt récentes comme les outils de L’IA.
Dans l’entreprise, ces fonctions de traitement de l’ensemble des data internes et data externes existent depuis que l’on utilise des fichiers. Mais aujourd’hui, la complexité, l’immensité des bases de données, les exigences du marché, et la nécessité de prendre des décisions internationales très rapidement ont changé la donne. Ce qui n’était que quelques tâches d’un projet, c’est transformé en nouveau métier indispensable. A chaque métier on associe, des compétences, une expérience, un profil, un comportement relationnel et un champ de responsabilité.
Le data analyst travaille avec des décideurs, du marketing produit, des stratèges des directions commerciales responsables des approches sectorielles, et de bien d’autres directions de production, de SAV, de finances etc. Il a donc des contacts avec des collègues qui n’ont pas forcément les mêmes objectifs, les mêmes responsabilités de décisions, les mêmes contraintes de temps et qui ne parlent pas la même langue !
Il y a alors une nécessité de bien comprendre la demande du responsable marketing pour lequel la prise de décision de lancer ou pas un nouveau produit ne se fait pas en claquant des doigts.
Ainsi, des résultats d’analyse bien fondés, clairs et peu discutables vont contribuer solidement aux fondations du projet. En revanche des résultats comportant des manques ou des incertitudes vont altérer le ressenti et la fiabilité des anticipations. Et du coup, on demandera à l’analyste de produire des chiffres comprenant leurs probabilités de réalisations futures. C’est là que les perceptions du temps se distinguent entre les fonctions car dans les modèles multifactoriels les évaluations de probabilités divergent selon les profils de personnalité et le niveau de responsabilité en matière de prise de risque.
Parmi les questions posées, on se demandera alors si la « loi » qui résulte de l’analyse va perdurer ou s’éteindre et donc envisager des réflexions qui porteront sur la genèse, le développement puis la maturation, un peu comme en biologie. A un temps T1 sommes-nous dans un contexte C qui ne sera pas forcément le même en T2 ?
Se pose alors la question de la cohérence interne de la loi, lors de discussions très intéressantes à l’issue desquelles on risque d’aboutir sur un doute concernant les données. Sont-elles bien définies, fiables, suffisantes ? Quand et comment ont-elles été construites ? Quelle est la profondeur du fossé entre les données et la réalité ? (Comme en économie). A-t-on une idée des marges d’erreur ? Les critères de regroupement dans un même sous-ensemble sont-ils respectés ? Existe-t-il des risques d’hypothèses discutable ? (Des données sur des ordonnances médicales ne peuvent indiquer quel pourcentage de patients ne respectent pas les posologies). A-t-on bien conscience de ce qui relève de la psychologie ? (A la question, respectez-vous les consignes de sécurité informatique ? les réponses peuvent être contradictoires selon le niveau d’ignorance et de connaissance individuelle des recommandations applicables).
Par ailleurs certains n’ont-ils pas tendance à « choisir ou rejeter » des données dont l’exploitation va dans le sens de ce qu’ils souhaitent ou de ce qu’ils craignent ? (Pour des raisons idéologiques, de business, voire d’idée préconçues). Ceci rejoint le défaut de l’approche inductive par rapport à la méthode déductive ; cette dernière étant souvent perçue comme trop exigeante. De plus l’observation d’un fait brut est plus délicate qu’on ne le pense à priori car un nombre restreint de répétitions conduit trop rapidement à l’affirmation d’une loi que l’on souhaite généraliser dans le temps.
Dans les autres domaines, le choix de la méthode est primordial. Par exemple les modèles de climatologie ont été conçus essentiellement selon une méthode empirique, statistique qui intègrent peu d’éléments scientifiques fondamentaux universellement reconnus. De plus certaines variables comme la vapeur d’eau font l’objet de théories qui se contredisent. Ce qui explique que certains climatologues rejettent l’idée que les modèles empiriques puissent fonctionner en extrapolation temporelle et donc produire des prévisions de température.
Ceci illustre le fait que tout data scientist doit bien intégrer la demande de l’ingénieur, du chercheur, du chef d’entreprise et si possible adopter une attitude scientifique même si le domaine étudié appartient à une science dite molle. Une telle recommandation est d’autant plus difficile à respecter que les chercheurs sont des spécialistes alors que de plus en plus les sciences dures et molles s’intègrent dans des processus d’interférence. On n’est pas toujours dans le fait brut comme celui de la chute de la pomme.
On peut néanmoins nuancer. Des marges d’erreur élevées, des fondements scientifiques imprécis et discutables, ou à fortes variabilités contextuelles sont moins pénalisantes dans le cadre d’un lancement de produit que pour ce qui concerne des domaines scientifiques sociétaux. Mais dans les deux cas, la qualité et la cohérence des bases de données sont fondamentales surtout s’il s’agit de faire des prédictions ou des évaluations de risques.
Ainsi le décideur en entreprise peut se contenter de coefficients de corrélation sans avoir contrôlé par tests le sens de la causalité ou en se basant sur des séries inférieures à 30 valeurs. Le data analyst peut dans ces circonstances adopter une attitude plus pragmatique voire même de « bricolage » car pour le décideur il y a des objectifs opérationnels et des contraintes de délais.
Globalement le domaine de la connaissance a subi de fortes évolutions depuis plusieurs décennies. Au début du siècle dernier des philosophes marxistes affirmaient : « il y a d’un côté la science et de l’autre, l’idéologie ». Les choses ont bien changé depuis, la frontière entre la science et l’idéologie est devenue complètement floue. De même entre les sciences dites dures et celles que l’on dit molles, il y a des interférences et des ramifications que l’on n’avait pas anticipées. Finalement ce contexte est devenu passionnant pour tout le monde y compris pour les data scientists.
Laisser un commentaire