L’objectif de ce groupe de travail et action Madics est d’étudier l’explicabilité des pipelines de Machine Learning à la fois du point de vue de l’utilisateur et des données et de leur usage dans le système par les modèles de ML.
Dans le cadre de l’apprentissage automatique (Machine Learning ou ML), les systèmes comme par exemple, Google ML Kit, TensorFlow, Amazon SageMaker, ou encore des logiciels comme Knime, sont des systèmes de gestion des pipelines qui assemblent de bout-en-bout divers composants d’analyse des données afin de répondre aux attentes des applications réelles. À ce jour, les pipelines sont souvent créés en assemblant des composants séparés, en fonction des particularités du cadre applicatif. Alors que la plupart des recherches actuelles se concentrent sur le problème de rendre les modèles de ML explicables [Molnar et al., 2020], de nombreuses décisions qui affectent le comportement des modèles sont effectuées en amont, lors du prétraitement des données et sont codées en tant qu’étapes de transformation de données spécifiques aux pipelines de prétraitement des données [Zelaya, 2019]. Cela inclut les étapes de nettoyage ainsi que les moyens de traitement distribué (par exemple, l’échantillonnage pour les ensembles d’apprentissage de différents modèles), qui doivent être pris en compte par l’explication des modèles ML.