Actes Ateliers EGC 2018

Organisateurs : Camille Kurtz, Nicolas Loménie

Site de la conférence EGC 2018

Conférences Invitées EGC 2018

Sixièmes post-actes

Fabrice Guillet, Bruno Pinaud, Gilles Venturini and Djamel Abdelkader Zighed (eds),
« Advances In Knowledge Discovery and Management, Volume 6 »,
Series: Studies in Computational Intelligence,
Vol. 665, 2017, Springer.
ISBN: 978-3-319-45762-8, DOI: 10.1007/978-3-319-45763-5.

About this book

This book presents a collection of representative and novel work in the field of data mining, knowledge discovery, clustering and classification, based on expanded and reworked versions of a selection of the best papers originally presented in French at the EGC 2014 and EGC 2015 conferences held in Rennes (France) in January 2014 and Luxembourg in January 2015. The book is in three parts: The first four chapters discuss optimization considerations in data mining. The second part explores specific quality measures, dissimilarities and ultrametrics. The final chapters focus on semantics, ontologies and social networks.
Written for PhD and MSc students, as well as researchers working in the field, it addresses both theoretical and practical aspects of knowledge discovery and management.

Table des matières

Part I – Mining Data with Optimization

  • Carine Hue, Marc Boullé, Vincent Lemaire:
    Online Learning of a Weighted Selective Naive Bayes Classifier with Non-convex Optimization. 3-17
  • Hélène Jaudoin, Pierre Nerzic, Olivier Pivert, Daniel Rocacher:
    On Making Skyline Queries Resistant to Outliers. 19-38
  • Pierre-Francois Marteau, Sylvie Gibet, Clément Reverdy:
    Adaptive Down-Sampling and Dimension Reduction in Time Elastic Kernel Machines for Efficient Recognition of Isolated Gestures. 39-59
  • Arnaud Soulet, François Rioult:
    Exact and Approximate Minimal Pattern Mining. 61-81

Part II — Quality Measures, Dissimilarities and Ultrametrics

  • Rafik Abdesselam, Fatima-Zahra Aazi:
    Comparison of Proximity Measures for a Topological Discrimination. 85-99
  • Patricia Conde-Céspedes, Jean-François Marcotorchino, Emmanuel Viennet:
    Comparison of Linear Modularization Criteria Using the Relational Formalism, an Approach to Easily Identify Resolution Limit. 101-120
  • Jean-Charles Lamirel, Pascal Cuxac, Kafil Hajlaoui:
    A Novel Approach to Feature Selection Based on Quality Estimation Metrics. 121-140
  • Dan A. Simovici, Rosanne Vetro, Kaixun Hua:
    Ultrametricity of Dissimilarity Spaces and Its Significance for Data Mining. 141-155

Part III — Semantics, Ontologies, and Social Networks

  • Bissan Audeh, Philippe Beaune, Michel Beigbeder:
    SMERA: Semantic Mixed Approach for Web Query Expansion and Reformulation. 159-180
  • Thomas Dietenbeck, Fakhri Torkhani, Ahlem Othmani, Marco Attene, Jean-Marie Favreau:
    Multi-layer Ontologies for Integrated 3D Shape Segmentation and Annotation. 181-206
  • Thomas Hecht, Patrice Buche, Juliette Dibie, Liliana Ibanescu, Cassia Trojahn dos Santos:
    Ontology Alignment Using Web Linked Ontologies as Background Knowledge. 207-227
  • Gianluca Quercini, Nacéra Bennacer, Mohammad Ghufran, Coriane Nana Jipmo:
    LIAISON: reconciLIAtion of Individuals Profiles Across SOcial Networks. 229-253
  • Erick Stattner, Martine Collard:
    Clustering of Links and Clustering of Nodes: Fusion of Knowledge in Social Networks. 255-276

EGC 2017 (Grenoble)

En 2017, cinq prix ont été décernés :

    • le prix de thèse de l’association EGC est attribué à Luis Galárraga pour sa thèse « Rule Mining in Knowledge Bases »
      Ce prix est doté d’un montant de 500 euros offert par l’association EGC
    • prix EGC-académique :
      Françoise Fessant, Tarek Benkhelif, Fabrice Clérot.
      Anonymiser des données multidimensionnelles à l’aide du coclustering
      Revue des Nouvelles Technologies de l’Information, vol. RNTI-E-33, pp.153-164, 2017.
      Ce prix est doté d’un montant de 1500 euros offert par l’association EGC
    • prix EGC-application :
      Harold Vilmart, Jean-Claude Léon, Federico Ulliana.
      Extraction et Inférence de Connaissances à partir d’Assemblages Mécaniques Définis par une Représentation CAO 3D
      Revue des Nouvelles Technologies de l’Information, vol. RNTI-E-33, pp.21-32, 2017.
      Ce prix est doté d’un montant de 1500 euros offert par l’association EGC
    • prix du défi EGC :
    • Yelen Per, Kevin Dalleau, Malika Smail-Tabbone
      Prédiction de défaut dans les arbres du parc végétal Grenoblois et préconisations pour les futures plantations
      Ce prix est doté d’un montant de 1500 euros offert par l’association EGC

    • prix de la meilleure démonstration :
      Frank Meyer, Sylvie Tricot, Pascale Kuntz, Wissam Siblini
      VIPE : un outil interactif de classification multilabel de messages courts.
      Ce prix est doté d’un montant de 500 euros offert par l’association EGC

Site EGC 2017

Défi EGC 2018 : Un défi sous le soleil de l’Île de La Réunion

Pour cette troisième édition du défi EGC (2018), le Laboratoire d’Énergétique, d’Électronique et Procédés (LE2P) et le Laboratoire d’Informatique et de Mathématiques (LIM) de l’Université de La Réunion vous proposent d’analyser des données de flux/rayonnements solaires à l’Île de La Réunion. Ce projet s’inscrit dans le cadre de la politique de développement vers l’autonomie énergétique à l’Île de La Réunion. Un historique de données de capteurs multi-sources sur plusieurs années est mis à votre disposition sous forme de séries temporelles multivariées. Nous suggérons un défi d’analyse exploratoire ouvert sur ces données.

Données

Pour mesurer le rayonnement solaire, quinze stations équipées de capteurs SPN1 (Sunshine Pyranometer) sont réparties sur l’Île de La Réunion. Le rayonnement solaire peut être décomposé en trois flux :

  • le flux global FGlobal
  • le flux diffus (ou réfléchi) FDiffus
  • le flux direct FDirect :
    FDirect = FGlobalFDiffus

Dans le domaine de la recherche sur l’énergie solaire, nous nous intéressons aussi à l’indice de fraction directe kb, défini comme le rapport du flux direct et du flux global, afin de représenter le rayonnement solaire journalier. Intuitivement, lorsque cet indice est proche de 1, le flux direct est proche du flux global et on est en présence d’une journée ensoleillée ; inversement, lorsque l’indice est proche de 0, la journée est nuageuse.

Les capteurs permettent d’obtenir les composantes diffuses et globales du flux solaire toutes les minutes. Ces capteurs sont associés à des capteurs météorologiques qui permettent d’obtenir – au pas de la minute aussi – la température, la pression atmosphérique, le taux d’humidité dans l’air ainsi que la force et la direction du vent.

Ainsi, vous disposerez d’environ cinq ans (2012-2016) d’historique de données de flux solaire et de données météorologiques (locales aux capteurs de flux solaire) sous forme de séries temporelles numériques au pas de la minute et par station.

Plus précisément, chaque station SPN1 fournit les sept mesures suivantes :

  • FG_avg (en W=m2) : le flux global
  • FD_avg (en W=m2) : le flux diffus
  • Patm_avg (en hPa) : la pression atmosphérique
  • RH_avg (en %) : le taux d’humidité dans l’air
  • Text_avg (en °C) : la température extérieure
  • WD_MeanUnitVector (en degré) : la direction du vent
  • WS_avg (en m/s) : la vitesse du vent

Ci-dessous un exemple de table de données des sept mesures pour une station SPN1 :

Les données peuvent être téléchargées à partir du lien suivant : https://www.egc.asso.fr/files/defi2018/RUN_solar_data_EGC_OpenChallenge.zip

Objectifs et tâches du défi

Les défis proposés s’adressent à la communauté de fouille de données et plus précisément aux passionnés de l’analyse de séries temporelles.

Pour le défi ouvert, 2 ans d’historique de données sont mis à disposition de la communauté sous la forme de cinq fichiers disponibles dans un fichier compressé au format ZIP. Chaque fichier contient les données collectées par un des capteurs pendant deux ans.

Bien que ce défi soit ouvert, nous suggérons quelques pistes de travail (non-exhaustives et donc non-restrictives) :

  • clustering de séries temporelles journalières (par exemple, la classification de journée type en fonction des données de flux solaires et/ou météorologiques
  • analyse des corrélations entre données de flux solaires et données météorologiques ;
  • analyses liées à la détection d’anomalies, d’évènements extrêmes, de gestion/complétion de valeurs manquantes ;
  • nouvelles visualisations de masses de données de séries temporelles ;
  • prédiction du flux global FGlobal ou de l’indice kb de fraction directe à l’horizon H+1, H+2, …, J+1 (à noter qu’un challenge prédictif est dédié à une tâche de prédiction de flux solaire, voir ci-dessous)

Pour ce défi ouvert, l’utilisation de données externes (open data) est autorisée tant qu’elles sont publiquement disponibles.

Soumission

Pour répondre au défi ouvert, vous devez rassembler vos résultats sur ces données dans un article long soumis à la conférence EGC 2018 avec la mention « Défi EGC 2018 » dans le titre. Le format à utiliser est la dernière version du style LaTeX RNTI : http://www.editions-rnti.fr/files/RNTI-X-Y2.1.zip. Les modalités de soumission et d’acceptation sont les mêmes que pour les autres articles, notamment l’anonymat des soumissions.

Présentation

Les papiers acceptés seront présentés lors de la conférence EGC en janvier 2018, très certainement dans une session spéciale « Défi EGC ».

Attribution du prix du défi EGC 2018

Le « défi ouvert » est doté d’un prix de 1500 euros délivré par l’association EGC.

Pour ce défi, un jury se réunira pour attribuer les prix du défi 2018, dans le même esprit que pour les autres prix.

Les critères d’attribution seront en particulier la pertinence et la qualité de l’approche méthodologique ainsi que l’originalité et l’intérêt des résultats obtenus.

Restriction de participation

Les membres de l’Université de La Réunion ainsi que les acteurs dans le domaine de la production d’énergie solaire de l’Île de La Réunion ne sont pas autorisés à participer au défi.

Calendrier

Les dates de soumission et de notification seront les mêmes que pour la conférence EGC 2018.

Contact

Vous retrouverez tous les éléments du Défi-EGC sur la page dédiée du site de l’association EGC.

Si vous avez d’autres questions, merci de contacter Arnaud MARTIN en indiquant clairement « Défi EGC 2018 » dans le sujet de votre mail.

 

Actes Ateliers EGC 2017

Fabien L. Gandon, Gilles Bisson

Site de la conférence EGC 2017

Cinquièmes post-actes

Fabrice Guillet, Bruno Pinaud, Gilles Venturini and Djamel Abdelkader Zighed (eds),
« Advances In Knowledge Discovery and Management, Volume 5 »,
Series: Studies in Computational Intelligence,
Vol. 615, 2016, Springer.
ISBN: 978-3-319-23751-0, DOI: 10.1007/978-3-319-23751-0.

About this book

This book is a collection of representative and novel works done in Data Mining, Knowledge Discovery, Clustering and Classification that were originally presented in French at the EGC’2013 (Toulouse, France, January 2013) and EGC’2014 Conferences (Rennes, France, January 2014). These conferences were respectively the 13th and 14th editions of this event, which takes place each year and which is now successful and well-known in the French-speaking community. This community was structured in 2003 by the foundation of the French-speaking EGC society (EGC in French stands for « Extraction et Gestion des Connaissances » and means « Knowledge Discovery and Management », or KDM).

This book is aiming at all researchers interested in these fields, including PhD or MSc students, and researchers from public or private laboratories. It concerns both theoretical and practical aspects of KDM. The book is structured in two parts called « Applications of KDM to real datasets » and « Foundations of KDM ».

Keywords:

Knowledge Discovery, Knowledge Management, Data Mining, Knowledge Engineering, Applications

Table des matières

Part I – Applications of KDM to Real Datasets

  • Romain Guigourès, Marc Boullé and Fabrice Rossi:
    A Study of the Spatio-Temporal Correlations in Mobile Calls Networks. 3-18
  • Mohamed K. El Mahrsi, Romain Guigourès, Fabrice Rossi
    and Marc Boullé:
    Co-Clustering Network-Constrained Trajectory Data. 19-32
  • Natalia Grabar, Pierre Chauveau-Thoumelin and Loïc Dumonet:
    Medical Discourse and Subjectivity. 33-54

Part II — Foundations of KDM

  • Xavier Dolques, Florence Le Ber, Marianne Huchard
    and Clémentine Nebut:
    Relational Concept Analysis for Relational Data Exploration. 57-78
  • Modou Gueye, Talel Abdessalem and Hubert Naacke:
    Dynamic Recommender System: Using Cluster-Based Biases to Improve the Accuracy of the Predictions. 79-104
  • Willy Ugarte, Patrice Boizumault, Samir Loudni, Bruno Crémilleux
    and Alban Lepailleur:
    Mining (Soft-) Skypatterns Using Constraint Programming. 105-136

Défi EGC 2017 : Un défi vert pour Grenoble

Pour cette seconde édition du défi EGC, Big Datext, entreprise Grenobloise spécialisée dans l’analyse prédictive, et la mairie de Grenoble se sont toutes deux impliquées dans la mise en place et la diffusion de la base de données du challenge. En phase avec la politique Open Data de la Ville, visant à diffuser les données publiques de la métropole, Big Datext et les services de la Ville ont souhaité axer le défi sur les données relatives aux espaces verts.

Données

Les données concernent des arbres situés dans la ville de Grenoble et entretenus par les services municipaux. Chaque enregistrement concerne un arbre et comporte des variables décrivant son type, son stade de développement, sa localisation et son environnement, son état et les traitements préconisés.

Objectifs

Le but de ce défi est double.

  • La première tâche consiste à déterminer, à partir des données disponibles, si l’arbre a un défaut et dans l’affirmative lequel.
  • La seconde tâche, plus ouverte, vise à appliquer des techniques d’extraction et de gestion de connaissances afin de mieux connaître l’état du « parc végétal » de Grenoble, de mieux comprendre son évolution et de fournir des préconisations pour faciliter son entretien. Pour cette seconde tâche, les participants peuvent, s’ils le souhaitent, avoir recours à des données externes.

Les participants peuvent traiter au choix l’une des deux tâches ou les deux et, un retour sur la qualité des données (complétude, redondance, etc.) dans un contexte open data sera apprécié.

Soumission

Pour répondre au défi, vous devez rassembler vos résultats sur ces données dans un article long soumis à la conférence EGC’2017 avec la mention « Défi EGC 2017 » dans le titre. Le format à utiliser est la dernière version du style LaTeX RNTI : http://www.editions-rnti.fr/files/RNTI-X-Y2.1.zip

Les modalités de soumission et d’acceptation sont les mêmes que pour les autres articles EGC, notamment l’anonymat des soumissions.

De plus les participants au premier défi devront renvoyer un fichier de résultats contenant leur prédiction pour un jeu d’évaluation qui sera fourni ultérieurement.

Les fichiers des données au format CSV ainsi que le descriptif des variables (EGC_description_variables_14042016.xls, classeurs EGC et Prédiction) et les consignes pour la tâche de prédiction sont disponibles sur le site : https://egc2017.imag.fr/defi

Présentation

Les papiers acceptés seront présentés lors de la conférence à Grenoble en janvier 2017, très certainement dans une session spéciale « Défi EGC ».

Prix

Attribution du prix du défi EGC 2017 : 1500 euros

Un jury se réunira pour attribuer le prix du défi EGC 2017, dans le même esprit que pour les autres prix EGC. Les critères d’attribution seront en particulier la pertinence et la qualité de l’approche méthodologique ainsi que l’originalité et l’intérêt des résultats obtenus.

Calendrier

Les dates de soumission et de notification seront les mêmes que pour la conférence EGC 2017.

Contact

Vous retrouverez tous les éléments du Défi-EGC sur la page dédiée du site de l’association EGC (https://www.egc.asso.fr/).

Si vous avez d’autres questions, merci de contacter Christine Largeron en indiquant clairement « Défi EGC 2017 » dans le sujet de votre mail.